使用pandas进行数据处理

最近在一边学习机器学习,一边做毕业设计,编程的过程中遇到很多小知识点,经常容易忘记要反复查找,就在想怎么能容易记住,并方便以后的使用,想到可以写博客记录,可以随时补充整理。

这篇主要写使用pandas进行数据处理。

  • 读取数据:

train_data = pd.read_csv('../user_data/used_car_train_105000.csv',sep = ' ')
  • 查看数据集的某一列是否有重复值:

duplicated = train_data[train_data.SaleID.duplicated(False)]    #train_data是数据集;查看‘SaleID’列是否有重复值。
print(duplicated[['SaleID']])
  • 删除缺失值:

#丢弃"bodyType", "fuelType","gearbox"这三列中有缺失值的行   
new_td = train_data.dropna(axis=0,subset = ["bodyType","fuelType","gearbox"])
#删除任一属性有缺失的行
new_td = train_data.dropna(how = 'any') 
#加上inplace=True,原地修改
train_data.dropna(how = 'any',inplace = True) 
  • 删除某几列:

train_data = train_data.drop(['offerType','seller'],1)
  • 绘制条形图:

list = train_data['model'].value_counts().reset_index(name = "count")
# plt.figure(figsize=(15,10)) #指定大小
plt.figure(dpi = 150) #指定像素
plt.bar(x = list['index'],height = list['count'])
plt.show()
  • 绘制饼图

list = train_data['fuelType'].value_counts().reset_index(name = "count")
colors = ['red','blue','yellow','green','orange'] #饼图的颜色
plt.axis('equal') #设置x,y轴刻度一致,这样饼图才能是圆的
plt.pie(x = list['count'],labels = list['index'],colors = colors,autopct='%.1f%%',radius = 2)    #autopct设置百分比显示,格式为'%.1f%%';radius改变饼图的半径大小;
plt.show()

 

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值