使用pandas进行数据处理

最新推荐文章于 2024-07-05 19:57:36 发布

凡麓清心

最新推荐文章于 2024-07-05 19:57:36 发布

阅读量424

点赞数

分类专栏： python数据分析

本文链接：https://blog.csdn.net/qi_liufan/article/details/113598371

版权

python数据分析专栏收录该内容

3 篇文章 0 订阅

订阅专栏

最近在一边学习机器学习，一边做毕业设计，编程的过程中遇到很多小知识点，经常容易忘记要反复查找，就在想怎么能容易记住，并方便以后的使用，想到可以写博客记录，可以随时补充整理。

这篇主要写使用pandas进行数据处理。

读取数据:

train_data = pd.read_csv('../user_data/used_car_train_105000.csv',sep = ' ')

查看数据集的某一列是否有重复值：

duplicated = train_data[train_data.SaleID.duplicated(False)]    #train_data是数据集；查看‘SaleID’列是否有重复值。
print(duplicated[['SaleID']])

删除缺失值：

#丢弃"bodyType", "fuelType","gearbox"这三列中有缺失值的行   
new_td = train_data.dropna(axis=0,subset = ["bodyType","fuelType","gearbox"])
#删除任一属性有缺失的行
new_td = train_data.dropna(how = 'any') 
#加上inplace=True，原地修改
train_data.dropna(how = 'any',inplace = True)

删除某几列：

train_data = train_data.drop(['offerType','seller'],1)

绘制条形图：

list = train_data['model'].value_counts().reset_index(name = "count")
# plt.figure(figsize=(15,10)) #指定大小
plt.figure(dpi = 150) #指定像素
plt.bar(x = list['index'],height = list['count'])
plt.show()

绘制饼图

list = train_data['fuelType'].value_counts().reset_index(name = "count")
colors = ['red','blue','yellow','green','orange'] #饼图的颜色
plt.axis('equal') #设置x，y轴刻度一致，这样饼图才能是圆的
plt.pie(x = list['count'],labels = list['index'],colors = colors,autopct='%.1f%%',radius = 2)    #autopct设置百分比显示，格式为'%.1f%%'；radius改变饼图的半径大小；
plt.show()