![](https://img-blog.csdnimg.cn/20201014180756926.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
Pandas
文章平均质量分 92
Zero400
这个作者很懒,什么都没留下…
展开
-
【Pandas】电影数据分析案例
目录1 需求2 实现2.1 问题一:2.2 问题二:2.3 问题三:1 需求现在我们有一组从2006年到2016年1000部最流行的电影数据,数据来源:https://www.kaggle.com/damianpanek/sunday-eda/data问题1:我们想知道这些电影数据中评分的平均分,导演的人数等信息,我们应该怎么获取?问题2:对于这一组电影数据,如果我们想rating,runtime的分布情况,应该如何呈现数据?问题3:对于这一组电影数据,如果我们希望统计电影分类(genre)的原创 2020-08-07 00:20:09 · 4049 阅读 · 1 评论 -
【Pandas】分组与聚合
目录1 什么是分组与聚合2 分组API3 星巴克案例3.1 数据获取3.2 进行分组聚合学习目标应用groupby和聚合函数实现数据的分组与聚合1 什么是分组与聚合分组与聚合通常是分析数据的一种方式,通常与一些统计函数一起使用,查看数据的分组情况交叉表与透视表也有分组的功能,所以算是分组的一种形式,只不过他们主要是计算次数或者计算比例。2 分组APIDataFrame.groupby(key, as_index=False)key:分组的列数据,可以多个案例:不同颜色的不同笔原创 2020-08-06 22:39:38 · 319 阅读 · 0 评论 -
【Pandas】交叉表与透视表
目录1 交叉表与透视表作用2 crosstab(交叉表) & pivot_table(透视表)3 案例3.1 数据准备3.2 查看效果3.3 pivot_table(透视表)实现4 小结学习目标应用crosstab和pivot_table实现交叉表与透视表1 交叉表与透视表作用探究股票的涨跌与星期几有关?以下图当中表示,week代表星期几,1,0代表这一天股票的涨跌幅是好还是坏,里面的数据代表比例可以理解为所有时间为星期一等等的数据当中涨跌幅好坏的比例2 crosstab(交叉原创 2020-08-06 21:47:55 · 397 阅读 · 0 评论 -
【Pandas】数据离散化与合并
目录1 数据离散化1.1 离散化1.2 案例a. 数据分组b. 哑变量矩阵(one-hot)2 数据合并2.1 pd.concat实现数据合并2.2 pd.merge实现数据合并3 小结学习目标应用cut、qcut实现数据的区间分组应用series.value_counts()统计分组次数应用get_dummies实现数据的one-hot编码应用pd.concat实现数据的合并应用pd.merge实现数据的合并1 数据离散化1.1 离散化为什么要数据离散化连续属性原创 2020-08-05 11:20:56 · 494 阅读 · 0 评论 -
【Pandas】缺失值处理
目录1 缺失值处理1.1 如何处理nan1.2 电影数据的缺失值处理a. 判断缺失值是否存在b. 存在缺失值nan,并且是np.nanc. 不是缺失值nan,有默认标记的2 小结学习目标说明Pandas的缺失值类型应用replace实现数据的替换应用dropna实现缺失值的删除应用fillna实现缺失值的填充应用isnull和notnull判断是否有缺失数据NaN1 缺失值处理1.1 如何处理nan判断数据是否为NaN:pd.isnull(df)pd.notnul原创 2020-08-05 09:36:58 · 350 阅读 · 0 评论 -
【Pandas】文件读取与存储
目录1. CSV1.1 read_csv1.2 to_csv1.3 案例2. HDF52.1 read_hdf2.2 to_hdf3. JSON3.1 read_json3.2 to_json4. 拓展学习目标了解Pandas的几种文件读取存储操作应用CSV方式和HDF方式实现文件的读取和存储我们的数据大部分存在于文件当中,所以pandas会支持复杂的IO操作,pandas的API支持众多的文件格式,如CSV、SQL、XLS、JSON、HDF5。注:最常用的HDF5和CSV文件原创 2020-08-04 18:34:21 · 595 阅读 · 0 评论 -
【Pandas】DataFrame运算
目录数据预处理1. 算术运算2. 逻辑运算2.1 逻辑运算符号<、 >、|、 &2.2 逻辑运算函数3 统计运算3.1 describe()3.2 统计函数4 累计统计函数5 自定义运算学习目标算术运算【掌握】逻辑运算【知道】1.逻辑运算符号2.逻辑运算函数对象.query()对象.isin()统计运算【知道】1.对象.describe()2.统计函数3.累积统计函数自定义运算【知道】apply(func, axis=0)原创 2020-08-04 17:32:41 · 582 阅读 · 0 评论 -
【Pandas】索引赋值和排序
目录1. 索引操作2. 赋值操作3. 排序学习目标记忆DataFrame的形状、行列索引名称获取等基本属性应用Series和DataFrame的索引进行切片获取应用sort_index和sort_values实现索引和值的排序预处理为了更好的理解这些基本操作,我们将读取一个真实的股票数据。import pandas as pd # 读取文件data = pd.read_csv("./data/stock_day.csv")# 删除一些列,让数据更简单些,再去做后面的操作原创 2020-08-03 22:10:39 · 2960 阅读 · 0 评论 -
【Pandas】Pandas与DataFrame
目录1. Pandas介绍1.1 Pandas处理案例2. DataFrame2.1 DataFrame结构2.2 DataFrame属性2.3 DatatFrame索引的设置2.3.1 修改行列索引值2.3.2 重设索引2.3.3 以某列值设置为新的索引1. Pandas介绍专门用于数据挖掘的开源python库便捷的数据处理能力读取文件方便封装了Matplotlib、Numpy的画图和计算1.1 Pandas处理案例import pandas as pd # 导入pandasim原创 2020-08-02 11:12:21 · 557 阅读 · 0 评论