Python数据分析复习(一)

一、数据分析的概念

广义数据分析包括狭义数据分析和数据挖掘。狭义数据分析是指根据分析目的,采用对比分析、分组分析、交叉分析和回归分析等分析方法,对收集的数据进行处理与分析,提供与价值的信息,发挥数据的作用,得到一个特征统计量结果的过程。数据挖掘则是指从大量的、不完全的、有噪声的、模糊的、随机的实际应用数据中,通过应用智能推荐、关联规则、分类模型和聚类模型等技术,挖掘信息潜在价值的过程。

二、Python分析常用库

1.Numpy

Numpy是Numerical Python的缩写,是一个Python科学计算的基础库。主要提供以下内容
(1)快速高效的多维数组对象ndarray
(2)对数组进行元素级计算和直接对数组进行数学运算的函数
(3)读/写硬盘上基于数组的数据集的工具
(4)线性代数运算、傅里叶变换和随机数生成等功能
(5)将C、C++、Fortran代码集成到Python项目的工具
除了为Python提供快速的数组处理能力外,Numpy在数据分析方面还有一个主要作用,即作为算法之间传递数据的容器。对于数值型数据,Numpy数组存储和处理数据比内置的Python数据结构高效很多。此外,由低级语言编写的库可以直接操作Numpy中的数组,无须进行任何数据复制工作。

2.Scipy

Scipy是基于Python的开源库,是一组专门解决科学计算中各种标准问题的模块和集合,常与Numpy、Matplotlib和pandas这些核心库一起使用。Scipy主要包含8个模块,不同模块与不同的应用场景,如表所示

模块名称简介
scipy.integrate数值积分和微分方程求解器
scipy.linalg扩展了由numpy.linalg提供的线性代数求解和矩阵分解的功能
scipy.optimize函数优化器(最小化器)以及根查找算法
scipy.signal信号处理工具
scipy.sparse系数矩阵和稀疏线性系统求解器
scipy.specialSPECFUN [这是一个实现了许多常用函数的Fortran库]的包装器
scipy.stats包含检验连续和离散概率分布的函数与方法、各种统计检验的函数与方法,以及各类描述性统计的函数与方法

3.pandas

pandas是Python的数据分析核心库,为时间序列分析提供了很好的支持,它提供了一系列能够快速、便捷地处理结构化数据的数据结构和函数。

pandas兼具Numpy高性能的数组计算功能以及电子表格和关系型数据库灵活的数据处理功能。它提供了复杂精细的索引功能,以便完成重塑、切片与切块、聚合和选取数据子集等操作。

4.Matplotlib

Matplotlib是较为流行的用于绘制数据图表的Python库,主要用于绘制2D图形。提供了pylab模块,其中包括Numpy和pyplot中许多常用的函数,方便用户快速进行计算和绘图。

5.seaborn

seaborn是基于Matplotlib的数据可视化Python库,它提供了一种高度交互的界面,便于用户制作出各种有吸引力的图标。

seaborn在Matplotlib的基础上进行了更高级的API封装,使得作图更容易。seaborn不需要用户了解大部分底层代码,即可使图形变得更加精致。大多数情况下,seaborn能作出更具有吸引力的图,而Matplotlib能作更具有特色的图,因此,可将seaborn视为Matplotlib的补充,而不是平替。同时,seaborn能高度兼容Numpy与pandas的数据结构以及Scipy与statsmodels等的统计模式,可以在很大程度上帮助用户实现数据可视化。

6.pyecharts

Echarts是一个由百度开源的数据可视化工具,凭借良好的交互性、精巧的图表设计,得到了众多开发者的认可(给国产大厂打call)。pyecharts是Python与Echarts的结合。

Pyecharts可以展示动态交互图,对于展示数据更方便,当鼠标悬停在图上时,即可显示数值、标签等;可轻松集成至Flask、Django等主流web框架;具有高度灵活的配置项;囊括30多种常见图表,如Bar(柱状图)、Boxplot(箱型图)、Funnel(漏斗图)、Gauge(仪表盘)、Graph(关系图)、HeatMap(热力图)、Radar(雷达图)、Sankey(桑基图)、Scatter(散点图)、WordCloud(词云)等。

7.scikit-learn

scikit-learn是一个简单有效的数据挖掘和数据分析工具,可以在各种环境下重复使用。scikit-learn建立在Numpy、Scipy和Matplotlib的基础之上,对一些常用的算法进行了封装。scikit-learn的基本模块主要涉及数据预处理、模型选择、分类、聚类、数据降维和回归6个方面。在数据量不大的情况下,scikit-learn可以解决大部分问题。执行建模任务时,不需要自行编写所有的算法,直接调用模块即可。

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 1
    评论
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值