Python处理表格数据

最新推荐文章于 2024-05-09 10:20:01 发布

不想编程的小杨

最新推荐文章于 2024-05-09 10:20:01 发布

阅读量9.7k

点赞数 10

文章标签： python pandas 表格 csv

本文链接：https://blog.csdn.net/weixin_41081074/article/details/88355240

版权

之前是直接用Excel处理数据，后来觉得实在是繁琐，尤其在数据量过大的情况下，特此去学了用python处理数据。学完之后不禁感叹pandas的强大。

Excel和CSV的处理方式大致相同，以下用csv举例。均为一些基础操作。

1.读取表格

import pandas as pd
new_data=pd.read_csv('/Users/ymhzb1994/Desktop/movie/movielens.csv')
#如果文件没有表头，还可以自己添加表头
new_data=pd.read_csv('/Users/ymhzb1994/Desk/data.csv',header=None,names = ['userId','movieId','rating'] )

2.查看数据

#查看前12行  head（）的（）中为空为默认前5行
new_data.head(12)

#查看表尾后几行
new_data.tail()

3.去除重复数据

new_data.drop_duplicates(subset=None,keep='first',inplace=True)

（1）subset：按照哪些列重复进行删除

subset=None时,全部列重复则删除该行；

若仅userid和movieId重复，就删除该行，则subset=['userid','movieId']

(2)keep=None 删除所有重复数据；kepp=‘first’保留第一次出现的重复行；keep='last' 保留重复行出现的最后一次

（3）inplace=True 是在原来的datafram上去除；inplace=False是产生一个副本

如：

data_distinct=new_data.drop_duplicates(subset=None,keep='first',inplace=False)

4.选取其中几列作为新的datafram

data_select=new_data[['userid','movieId']]

5.存成新的表

data_select.to_csv('/user/my/newdata.csv')

不想编程的小杨

关注

10
点赞
踩
77

收藏

觉得还不错? 一键收藏
0
评论
Python处理表格数据

之前是直接用Excel处理数据，后来觉得实在是繁琐，尤其在数据量过大的情况下，特此去学了用python处理数据。学完之后不禁感叹pandas的强大。Excel和CSV的处理方式大致相同，以下用csv举例。均为一些基础操作。1.读取表格import pandas as pdnew_data=pd.read_csv('/Users/ymhzb1994/Desktop/movie/...
复制链接

扫一扫