工具书—《利用Python进行数据分析》读书笔记

过年在家读的这本书,最近复习一遍,顺便码成文字分享给大家。

《利用Python进行数据分析》知识总结

一、Python数据科学库介绍

1、Numpy——numerical python

Python数值计算的基石,提供多种数据结构、算法以及大部分涉及Python数值计算所需的接口。

2、pandas——Python data analysis

提供高级数据结构和函数,将表格和关系型数据库的灵活数据操作能力与numpy的高性能数组计算理念相结合。提供复杂的索引函数,使得数据的重组、切块、切片、聚合、子集选择更为简单。

3、matplotlib

制图以及数据可视化库

4、ipython与jupyter

提供交互性、探索性的高校环境

5、scipy

科学计算领域针对不同标准问题域的包集合

6、scikit-learn——专注于预测

首选机器学习工具包

  • 分类:SVM、最邻近、随机森林、逻辑回归等
  • 回归:岭回归、lasso等
  • 聚类:k-means、谱聚类、密度聚类等
  • 降维:PCA、特征选择、矩阵分解等
  • 模型评估(模型选择):网格搜索、交叉验证、指标矩阵
  • 预处理:特征提取、正态化、标准化等

7、statsmodels——专注于推理统计

统计分析包:

  • 回归模型:线性回归、通用线性模型
  • 方差分析ANOVA
  • 时间序列分析:AR、ARMA、ARIMA
  • 非参数方法

数据分析大体分为以下几个部分:

  • 与外部世界交互:读写各种格式的文件以及数据存储
  • 准备:对分析数据进行清洗、处理、联合、正态化、重组、切片、切块和转换
  • 转换:将数学或统计操作应用到数据集的分组上以产生新的数据集
  • 建模和计算:将数据接入到统计模型、机器学习算法和其他计算工具上
  • 演示:创建动态或静态的图形可视化或文字概述

二、内建数据结构、函数及文件

1、数据结构和序列

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-kL8x7jUq-1592533458705)(C:\Users\Administrator\AppData\Roaming\Typora\typora-user-images\1591244916763.png)]

列表推导式:[expr for val in collection if condition]

字典推导式:{key_expr : value_expr for value in collection if condition}

集合推导式:{expr for value in collection if condition}

2、函数

参数:位置参数、关键字参数

变量:全局变量global、局域变量no local

lambda函数(匿名函数)

生成器 yield

3、文件与操作系统

open( path, ‘读取模式’)

sys.getdefaultencoding()——检查文件的默认编码

三、Numpy基础:数组与向量化计算

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-XAT9N9Yf-1592533458710)(C:\Users\Administrator\AppData\Roaming\Typora\typora-user-images\1591251457434.png)]

1、numpy ndarray——多维数据对象

n维数组:shape属性、dtype属

  • 1
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值