python 数据分析教程_数据分析 机器学习 - 刘江的数据分析教程

Python数据分析

阅读: 55106

评论:8

最新《Django3.1大神之路》视频教程:点此查看

本教程的核心内容是利用Python语言操作、处理、清洗、可视化数据,对数据进行基本的分析。虽然以分析为名,但专注于Python的编程、主要类库、工具,而不是分析的方法论。更进一步的数据挖掘、机器学习,将在下一步的教程里体现。

在数据分析和处理领域,毫无疑问,Python是主流语言,其原因在于:

Python语法简单,代码量少

Numpy、Scipy、Pandas和Matplotlib的科学计算生态圈过于强大

Ipython和Jupyter notebook的交互式环境

容易整合C/C++/FORTRAN代码,使用过往的存量代码

从代码走向工程很快捷

下面是Python数据分析和处理任务中重要的库与工具:

1. Numpy

官网:http://www.numpy.org/

v2-9acde76ad3677649e10bca371540b104_b.png

Numpy库是Python数值计算的基石。它提供了多种数据结构、算法以及大部分涉及Python数值计算所需的接口。主要包括以下内容:

快速、高效的多维数组对象ndarray

基于元素的数组计算或者数组间的数学操作函数

用于读写硬盘中基于数组的数据集的工具

线性代数操作、傅里叶变换以及随机数生成

成熟的C语言API,拓展代码

2. Scipy

官网:https://www.scipy.org/

v2-c7b50a48f42eb88fb066d2f687dbea38_b.png

这个库是Python科学计算领域内针对不同标准问题域的包集合,主要包括以下内容:

integrate:数值积分例程和微分方程求解器

linalg:线性代数例程和基于numpy.linalg的矩阵分解

optimize:函数优化器和求根算法

signal:信号处理工具

sparse:稀疏矩阵与稀疏线性系统求解器

special:SPECFUN的包装其

stats:标准的连续和离散概率分布

Scipy与Numpy一起为很多传统科学计算应用提供了一个合理、完整、成熟的科学计算基础。

3. Pandas

官网: http://pandas.pydata.org/

v2-a225ecb4fd04fb439914c54f139970bd_b.png

Pandas提供了高级数据结构和函数,使得利用结构化、表格化数据的工作快速、简单、有表现力。Pandas将表格和关系型数据库的灵活数据操作能力与Numpy的高性能数组计算的理解相结合。提供复杂的索引函数,使得数据的重组、切块、切片、聚合、子集选择更为简单。Pandas是数据分析和处理工作中,实际使用占比最多的工具,使用频率最高,也是本教程的主要介绍内容。

4. matplotlib

官网:https://matplotlib.org/

v2-f442cb08237dc739a3fc69501c8dbfe8_b.png

matplotlib是最流行的用于制图以及其它数据可视化的Python库。在基于Python的数据可视化工作中,这个库是行业默认选择,虽然也有其它可视化库,但matplotlib依然是使用最为广泛,并且与生态系统的其它库良好整合。

此工具是本教材主要介绍内容之一,实际上,学会了这个工具,其它可视化库,甚至Matlab绘图,基本套路都是类似的,可以一通百通。

5. Jupyter notebook

官网:https://jupyter.org/

v2-ab7d9edf2ea7a1e51d6165d0c2ef4a64_b.png

基于Python的交互式编程环境有IPython、IPython notebook以及Jupyter notebook。但如果对于数据分析、处理、机器学习等相关工作,我强烈推荐基于web的Jupyter notebook。

这个代码测试、开发、编辑、文字工具,真的是谁用谁知道,并且也是本教程的主要内容之一,吐血推荐!

6. scikit-learn

官网:https://scikit-learn.org/stable/

v2-96d2f53faab2fcf54d812509d9296b12_b.png

如果说基于Python的机器学习,那么首推必须是scikit-learn库,属于必学工具!它主要包括以下子模块:

分类:SVM、最近邻、随机森林、逻辑回归等

回归:Lasso、岭回归等

聚类:k-means、谱聚类等

降维:PCA、特征选择、矩阵分解等

模型选择:网格搜索、交叉验证、指标矩阵等

预处理:特征提取、正态化

其它有用的工具和数据集

机器学习是非常庞大和复杂的一门学科,本教程不准备讲述,而是放在下一步。

评论总数: 8

005Tx78Vly8gdxtri0hqij30ro0ro0va.jpg?KID=imgbed,tva&Expires=1587703766&ssig=ID%2Beo0RHYd

厉害

By

潭忆予戒 On

2020年4月24日 09:49

回复

006RCTUbly8fm2q792p6tj30dc0dcmyj.jpg?KID=imgbed,tva&Expires=1586843784&ssig=gL%2Brbeg2kw

支持

By

牛牛的素素 On

2020年4月14日 11:01

回复

be962eddly8fjr8z7htujj20ro0rotal.jpg?Expires=1566547156&ssig=S%2BDXF3fFUh&KID=imgbed,tva

test

By

SecurityE On

2019年8月23日 14:59

回复

8697aaedly1g27ty9y0vpj21hc0u0kjl.jpg?Expires=1563807303&ssig=BqjyzDfwUK&KID=imgbed,tva

学习学习

By

码农吴先生 On

2019年7月22日 21:55

回复

deb549cdly8g0kdi6ij2oj20n10n13zo.jpg

感谢作者

By

一刀杀了你亲妈 On

2019年3月5日 19:01

回复

007rCxsily8fwy8ugo7gaj30ha0hagn6.jpg

有时间好好学习一下本教程。

By

用户1382844313 On

2019年2月26日 15:35

回复

006xIWURly8fymbr91qcaj30qo0qo40k.jpg

博主新年发布了新教程!厉害!感谢!支持!宣传!

By

蔷薇-Nina On

2019年2月26日 15:26

回复

0061qcDQjw8ep6v23tnyzj3028028q2p.jpg

不错,很好的教程,已购买视频,支持

By

潇潇乐5517818454 On

2019年2月11日 11:14

回复

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值