工具书—《利用Python进行数据分析》读书笔记

最新推荐文章于 2024-05-20 14:07:15 发布

Joe_lee1

最新推荐文章于 2024-05-20 14:07:15 发布

阅读量593

点赞数 1

文章标签： python 数据分析

本文链接：https://blog.csdn.net/joe_lee1/article/details/106851003

版权

过年在家读的这本书，最近复习一遍，顺便码成文字分享给大家。

《利用Python进行数据分析》知识总结

一、Python数据科学库介绍

1、Numpy——numerical python

Python数值计算的基石，提供多种数据结构、算法以及大部分涉及Python数值计算所需的接口。

2、pandas——Python data analysis

提供高级数据结构和函数，将表格和关系型数据库的灵活数据操作能力与numpy的高性能数组计算理念相结合。提供复杂的索引函数，使得数据的重组、切块、切片、聚合、子集选择更为简单。

3、matplotlib

制图以及数据可视化库

4、ipython与jupyter

提供交互性、探索性的高校环境

5、scipy

科学计算领域针对不同标准问题域的包集合

6、scikit-learn——专注于预测

首选机器学习工具包

分类：SVM、最邻近、随机森林、逻辑回归等
回归：岭回归、lasso等
聚类：k-means、谱聚类、密度聚类等
降维：PCA、特征选择、矩阵分解等
模型评估（模型选择）：网格搜索、交叉验证、指标矩阵
预处理：特征提取、正态化、标准化等

7、statsmodels——专注于推理统计

统计分析包：

回归模型：线性回归、通用线性模型
方差分析ANOVA
时间序列分析：AR、ARMA、ARIMA
非参数方法

数据分析大体分为以下几个部分：

与外部世界交互：读写各种格式的文件以及数据存储
准备：对分析数据进行清洗、处理、联合、正态化、重组、切片、切块和转换
转换：将数学或统计操作应用到数据集的分组上以产生新的数据集
建模和计算：将数据接入到统计模型、机器学习算法和其他计算工具上
演示：创建动态或静态的图形可视化或文字概述

二、内建数据结构、函数及文件

1、数据结构和序列

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-kL8x7jUq-1592533458705)(C:\Users\Administrator\AppData\Roaming\Typora\typora-user-images\1591244916763.png)]

列表推导式：[expr for val in collection if condition]

字典推导式：{key_expr : value_expr for value in collection if condition}

集合推导式：{expr for value in collection if condition}

2、函数

参数：位置参数、关键字参数

变量：全局变量global、局域变量no local

lambda函数（匿名函数）

生成器 yield

3、文件与操作系统

open( path, ‘读取模式’)

sys.getdefaultencoding()——检查文件的默认编码

三、Numpy基础：数组与向量化计算

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-XAT9N9Yf-1592533458710)(C:\Users\Administrator\AppData\Roaming\Typora\typora-user-images\1591251457434.png)]

1、numpy ndarray——多维数据对象

n维数组：shape属性、dtype属

最低0.47元/天解锁文章

Joe_lee1

关注

1
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
工具书—《利用Python进行数据分析》读书笔记

《利用Python进行数据分析》知识总结一、Python数据科学库介绍1、Numpy——numerical pythonPython数值计算的基石，提供多种数据结构、算法以及大部分涉及Python数值计算所需的接口。2、pandas——Python data analysis提供高级数据结构和函数，将表格和关系型数据库的灵活数据操作能力与numpy的高性能数组计算理念相结合。提供复杂的索引函数，使得数据的重组、切块、切片、聚合、子集选择更为简单。3、matplotlib制图以及数据可视化库4
复制链接

扫一扫