一直想把excel和python关联起来,加深学习pandas的印象,正好在知乎上找到@天天 提到的的《对比excel,轻松学习python数据分析》这本书,紧接着又搜到了苏克1900:像 Excel 一样使用 python 进行数据分析 这篇专栏文章,文章写得很全,遂在jupyte notebook上重写了一遍里面的代码,以供对照学习。按照书中目录,总共分为如下部分:
一、生成数据表
import
二、数据表检查
#查看数据表的维度,对应excel CTRL+向下 CTRL+向右
df.shape
(6, 6)
# 数据表信息
df.info()
# 查看数据格式,Excel中通过选中单元格并查看开始菜单中的数值类型来判断数据的格式
df.dtypes
# 查看空值,对应excel CTRL+G定位空值
df.isnull()
# 查看唯一值,Excel 中查看唯一值的方法是使用“条件格式”对唯一值进行颜色标记
df['city'].unique()
# 查看数据表数值
df.values
# 查看列名称
df.columns
# 查看前10行数据
df.head(10)
# 查看后10行数据
df.tail(10)
三、数据表清洗
# 处理空值(删除或填充),对应excel查找和替换——删除数据表中含有空值的行
df.dropna(how="any")
#使用数字 0 填充数据表中空值
df.fillna(value=0)
#使用均值填充数据表中空值
df['price']=df['price'].fillna(df['price'].mean())
# 清理空格,清除city 字段中的字符空格
df['city']=df['city'].map(str.strip)
# 大小写转换
df['city']=df['city'].str.lower()
# 更改数据格式,Excel 中通过“设置单元格格式”功能可以修改数据格式
df['price'].astype('int')
# 更改列名称
df.rename(columns={'category': 'categor