数据分析基本过程包括:
获取数据、数据清洗、构建模型、数据可视化以及消费趋势分析
Pandas代码注释
.head(),读取指定行数据,不填参数默认读取前5行
data.head().T # .T 转置
pd.concat() # 数据拼接
.isnull() # 对所有元素进行判断,返回由布尔值组成的DataFrame
.sum() # 所有元素求和,由于所有元素都转换为布尔值,相当于1(True)和0(False),求和后若为0则说明所有的值均为False
'''
data.dropna()
axis 默认为0,0表示对行操作,1表示对列操作
how 默认为any,any表示有null值就除去,how表示全为null值才除去
subset 指定选区的行数
'''
dataDF.shape # 查看数据几行几列
dataDF.index # 查看索引
dataDF.columns # 查看每一列的列表头内容
data.describe() # 对总体数据进行分析,列出各项数据
data.info() # 查看数据每列的信息
'''
data.duplicated(
subset= # 选取的列
keep = # 默认为first,first表示保留重复值中第一次出现的值,last表示重复值中最后一次出现的值
inplace = # 填入布尔值,表示是否对原数组进行操作
)
'''
dataDF.count() # 查看每一列数据统计数目
.get_dummies() 对某列进行独热编码
.join()将列与索引或键列上的其他数据帧连接起来。通过传递列表,一次通过索引高效地连接多个数据帧对象。