基于Python基础,今天聊一下怎么对数据进行预处理。
(一)读入数据
read_csv()
read_excel()
(二)数据表整理
reset_index() --> 自增序号
(三)数据查看
head() --> 从开头数前几条数据,一般默认为5
tail() --> 倒数几条数据,一般默认为5
columns --> 列标题
info --> 基础信息
shape --> 行列值
discribe() --> 基本描述
(四)数据补充
df['new'] = ...
(五)空值、异常值处理
isnull().dropna
(六)重复值
any(df.duplicated())
(七)整合数据
merge
(八)列名重命名
rename
(九)数据表查看
dtypes