之前是直接用Excel处理数据,后来觉得实在是繁琐,尤其在数据量过大的情况下,特此去学了用python处理数据。学完之后不禁感叹pandas的强大。
Excel和CSV的处理方式大致相同,以下用csv举例。均为一些基础操作。
1.读取表格
import pandas as pd
new_data=pd.read_csv('/Users/ymhzb1994/Desktop/movie/movielens.csv')
#如果文件没有表头,还可以自己添加表头
new_data=pd.read_csv('/Users/ymhzb1994/Desk/data.csv',header=None,names = ['userId','movieId','rating'] )
2.查看数据
#查看前12行 head()的()中为空为默认前5行
new_data.head(12)
#查看表尾后几行
new_data.tail()
3.去除重复数据
new_data.drop_duplicates(subset=None,keep='first',inplace=True)
(1)subset:按照哪些列重复进行删除
subset=None时,全部列重复则删除该行;
若仅userid和movieId重复,就删除该行,则subset=['userid','movieId']
(2)keep=None 删除所有重复数据;kepp=‘first’保留第一次出现的重复行;keep='last' 保留重复行出现的最后一次
(3)inplace=True 是在原来的datafram上去除;inplace=False是 产生一个副本
如:
data_distinct=new_data.drop_duplicates(subset=None,keep='first',inplace=False)
4.选取其中几列作为新的datafram
data_select=new_data[['userid','movieId']]
5.存成新的表
data_select.to_csv('/user/my/newdata.csv')