1数据分析是什么

一.数据分析与数据挖掘的关系
传统的统计分析是在已定假设、先验约束上,对数据进行整理、筛选和加工,由此得到一些信息,而这些信息需要进一步的认知,用于有效的预测和决策,这样的过程则是数据挖掘的过程。统计分析是把数据变成信息的工具,数据挖掘是把信息变成认知的工具。广义上的数据分析是指整个过程,即从数据到认知。
二.机器学习与数据分析的关系
机器学习是人工智能的核心领域之一,最初的目的是让机器具有学习能力,从而拥有智能,目前公认的定义是利用经验来改善计算机系统自身的性能。由于“经验”在计算机系统中主要以数据形式存在,因此机器学习需要对数据进行分析。
数据分析的定义则是识别出海量数据中有效的、新颖的、潜在有用的、最终可理解的模式的非平凡过程,即从海量数据中找到有用的知识,主要利用机器学习领域提供的技术来分析海量数据。
三.数据分析的基本步骤
数据分析的步骤为数据收集——数据预处理——数据分析与知识发现——数据后处理。
1.数据收集
之前的数据收集包含抽样、测量、编码、输入、核对等操作,这是一种主动的收集数据的方法。
如今由于传感器、照相机等电子设备普及,大量的数据会涌入,无法像传统的数据收集那样得到少而精的数据,而是产生了大量的、冗余的但是信息量少的数据,从这样的数据中得到所需要信息的过程是目前数据分析的重点和难点。
2.数据预处理
数据预处理完成从数据到信息的转化过程:首先对数据进行初步的统计方面的分析,得到数据的基本档案;其次分析数据质量,从数据的一致性、完整性、准确性和及时性4个方面进行分析;再次根据发现的数据质量问题对数据进行清洗,包括缺失值处理、噪声处理等;最后对其进行特征抽取,为后续的数据分析工作做准备。
3.数据分析与知识发现
数据分析与知识发现则是将数据预处理后的数据进行进一步分析,完成从信息到认知转化过程。从整理后的数据中学习和发现知识,主要分为有监督的和无监督的。有监督的分析包括分类分析、关联分析和回归分析;无监督的分析包括聚类分析、异常检测。
4.数据后处理
数据后处理主要包括提供数据给决策支撑系统、数据可视化等。
四.Python和数据分析
数据分析需要与数据进行大量的交互、探索性计算以及过程数据和结果的可视化等,过去有很多专用于实验性数据分析或者领域的特定语言,如R语言、MATLAB、SAS、SPSS等。与这些语言相比,Python具有以下优点:
1.Python是面向生产的
大部分数据分析的过程都是首先进行实验性的研究、原型构建,再移植到生产系统中。上述语言都无法直接用于生产,需要使用C/C++语言等对算法进行再次实现;而Python是多功能的,不仅适用于原型构建,还可以直接运用到生产系统中。
2.强大的第三方库的支持
Python是多功能的语言,数据统计更多的是通过第三方的库来实现的,常用的有NumPy、SciPy、Pandas、scikit-learn、Matplotlib等。在上述提到的语言中,只有R语言和Python语言是开源的,由很多人共同维护,对于新的需求可以很快地付诸实践。
3.Python的胶水语言特性
Python的底层可以用C语言来实现,一些底层用C语言写到算法封装在Python包中能显著提高性能。例如Numpy底层是用C语言实现的,所以对于很多运算,它的速度都比用R语言等语言实现的要快。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值