pandas:python数据分析包(一)
本文只是记录了理论知识,没有操作和实验;
更加具体访问官方文档(https://pandas.pydata.org/docs/user_guide/index.html)
统计学与数据挖掘:
统计学:认识客观现象总体数量特征和数量关系科学。通过搜集、整理、和分析统计资料认识客观现象数量规律性的方法论科学。
数据挖掘中统计学方法可用于:
汇总或描述数据集、验证数据挖掘结果。
统计学以某种方法模拟数据,解释数据随机性和确定性,还可以提取观察到的结论。
常用统计学指标:
1、平均数
2、绝对值与相对数
3、百分比与百分点
4、频数与频率
5、比例与比率
6、倍数与番教
6、同比与环比:
同比:不同年份同月对比;环比:同年份相邻月对比
8、基线和峰值、极值分析
9、增量与增速
pandas简单介绍:
pandas是基于统计学分析的数据挖掘工具,它提供操纵数值表格和时间序列的数据结构和运算操作,通常与numpy一起使用。
pandas主要用于数据分析。pandas允许从各种文件格式比如CSV、JSON、SQL、Microsoft Excel导入数据。pandas允许各种数据操纵运算操作比如归并、再成形、选择,还有数据清洗和数据加工特征。
基本功能:
1、pandas最初被作为金融数据分析工具,因此,pandas为时间序列分析提供了很好的支持。
2、集成时间序列功能,可以处理时间序列数据也能处理非时间序列数据。
3、数学运算
4、灵活处理缺失数据。
5、提供多种函数用于完成数据库数据操作。
6、按轴自动或者显式数据对齐功能的数据结构。
核心数据结构:
1、一维数据结构:Series
2、二维数据结构:DataFrame
常用函数: