数据分析第四次_4第四次作业-某点评.csv是某app的评论数据,请数据分析师通过该数据建立模型,-CSDN博客

本文链接：https://blog.csdn.net/qq_53416355/article/details/123300791

数据分析基本过程包括：

获取数据、数据清洗、构建模型、数据可视化以及消费趋势分析

Pandas代码注释

.head()，读取指定行数据，不填参数默认读取前5行

data.head().T  # .T 转置

pd.concat()  # 数据拼接

.isnull()  # 对所有元素进行判断，返回由布尔值组成的DataFrame

.sum()  # 所有元素求和，由于所有元素都转换为布尔值，相当于1（True）和0（False），求和后若为0则说明所有的值均为False

'''
data.dropna() 
    axis 默认为0，0表示对行操作，1表示对列操作
    how 默认为any，any表示有null值就除去，how表示全为null值才除去
    subset 指定选区的行数
'''

dataDF.shape  # 查看数据几行几列

dataDF.index  # 查看索引

dataDF.columns  # 查看每一列的列表头内容

data.describe()  # 对总体数据进行分析，列出各项数据

data.info()  # 查看数据每列的信息

'''
data.duplicated(
    subset=  # 选取的列
    keep =  # 默认为first，first表示保留重复值中第一次出现的值，last表示重复值中最后一次出现的值
    inplace =   # 填入布尔值，表示是否对原数组进行操作
)
'''

dataDF.count()  # 查看每一列数据统计数目

.get_dummies() 对某列进行独热编码

.join()将列与索引或键列上的其他数据帧连接起来。通过传递列表，一次通过索引高效地连接多个数据帧对象。