过年在家读的这本书,最近复习一遍,顺便码成文字分享给大家。
《利用Python进行数据分析》知识总结
一、Python数据科学库介绍
1、Numpy——numerical python
Python数值计算的基石,提供多种数据结构、算法以及大部分涉及Python数值计算所需的接口。
2、pandas——Python data analysis
提供高级数据结构和函数,将表格和关系型数据库的灵活数据操作能力与numpy的高性能数组计算理念相结合。提供复杂的索引函数,使得数据的重组、切块、切片、聚合、子集选择更为简单。
3、matplotlib
制图以及数据可视化库
4、ipython与jupyter
提供交互性、探索性的高校环境
5、scipy
科学计算领域针对不同标准问题域的包集合
6、scikit-learn——专注于预测
首选机器学习工具包
- 分类:SVM、最邻近、随机森林、逻辑回归等
- 回归:岭回归、lasso等
- 聚类:k-means、谱聚类、密度聚类等
- 降维:PCA、特征选择、矩阵分解等
- 模型评估(模型选择):网格搜索、交叉验证、指标矩阵
- 预处理:特征提取、正态化、标准化等
7、statsmodels——专注于推理统计
统计分析包:
- 回归模型:线性回归、通用线性模型
- 方差分析ANOVA
- 时间序列分析:AR、ARMA、ARIMA
- 非参数方法
数据分析大体分为以下几个部分:
- 与外部世界交互:读写各种格式的文件以及数据存储
- 准备:对分析数据进行清洗、处理、联合、正态化、重组、切片、切块和转换
- 转换:将数学或统计操作应用到数据集的分组上以产生新的数据集
- 建模和计算:将数据接入到统计模型、机器学习算法和其他计算工具上
- 演示:创建动态或静态的图形可视化或文字概述
二、内建数据结构、函数及文件
1、数据结构和序列
[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-kL8x7jUq-1592533458705)(C:\Users\Administrator\AppData\Roaming\Typora\typora-user-images\1591244916763.png)]
列表推导式:[expr for val in collection if condition]
字典推导式:{key_expr : value_expr for value in collection if condition}
集合推导式:{expr for value in collection if condition}
2、函数
参数:位置参数、关键字参数
变量:全局变量global、局域变量no local
lambda函数(匿名函数)
生成器 yield
3、文件与操作系统
open( path, ‘读取模式’)
sys.getdefaultencoding()——检查文件的默认编码
三、Numpy基础:数组与向量化计算
[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-XAT9N9Yf-1592533458710)(C:\Users\Administrator\AppData\Roaming\Typora\typora-user-images\1591251457434.png)]
1、numpy ndarray——多维数据对象
n维数组:shape属性、dtype属