最近在一边学习机器学习,一边做毕业设计,编程的过程中遇到很多小知识点,经常容易忘记要反复查找,就在想怎么能容易记住,并方便以后的使用,想到可以写博客记录,可以随时补充整理。
这篇主要写使用pandas进行数据处理。
-
读取数据:
train_data = pd.read_csv('../user_data/used_car_train_105000.csv',sep = ' ')
-
查看数据集的某一列是否有重复值:
duplicated = train_data[train_data.SaleID.duplicated(False)] #train_data是数据集;查看‘SaleID’列是否有重复值。
print(duplicated[['SaleID']])
-
删除缺失值:
#丢弃"bodyType", "fuelType","gearbox"这三列中有缺失值的行
new_td = train_data.dropna(axis=0,subset = ["bodyType","fuelType","gearbox"])
#删除任一属性有缺失的行
new_td = train_data.dropna(how = 'any')
#加上inplace=True,原地修改
train_data.dropna(how = 'any',inplace = True)
-
删除某几列:
train_data = train_data.drop(['offerType','seller'],1)
-
绘制条形图:
list = train_data['model'].value_counts().reset_index(name = "count")
# plt.figure(figsize=(15,10)) #指定大小
plt.figure(dpi = 150) #指定像素
plt.bar(x = list['index'],height = list['count'])
plt.show()
-
绘制饼图
list = train_data['fuelType'].value_counts().reset_index(name = "count")
colors = ['red','blue','yellow','green','orange'] #饼图的颜色
plt.axis('equal') #设置x,y轴刻度一致,这样饼图才能是圆的
plt.pie(x = list['count'],labels = list['index'],colors = colors,autopct='%.1f%%',radius = 2) #autopct设置百分比显示,格式为'%.1f%%';radius改变饼图的半径大小;
plt.show()