1.导入模块
import pandas as pd
import numpy as np
2.获取数据
fdata=pd.read_excel("F:\\专业课程作业\\python时空数据分析与可视化\\tips_mod.xls")
fdata.head()
3.分析数据
(1)查看数据的描述信息
print(fdata.shape)
fdata.describe()
(2)显示聚餐时间段的不重复值
fdata['聚餐时间段'].unique()
(3)修改拼写错误的字段值
fdata.loc[fdata['聚餐时间段']=='Diner','聚餐时间段']='Dinner'
fdata.loc[fdata['聚餐时间段']=='Dier','聚餐时间段']='Dinner'
fdata['聚餐时间段'].unique()
(4)检测数据中的缺失值
fdata.isnull().sum()
(5)删除一行内有两个缺失值的数据
fdata.dropna(thresh=6,inplace=True)
fdata.isnull().sum()
(6)删除性别或聚餐时间段为空的行
fdata.dropna(subset=['性别','聚餐时间段'],inplace=True)
fdata.isnull().sum()
(7)对剩余有空缺的值用均值替换
fdata.fillna(fdata.mean(),inplace=True)
fdata.isnull().sum()