一、导入数据和查看数据时常用的
从excel读数:
pd.read_csv() 得到的是dataframe格式
显示数据前五行
head()
显示列名
columns
二、删除dataframe中的重复项drop_duplicates()
drop_duplicates()
data.drop_duplicates(subset= ,keep= ,inplace= )
参数介绍:
subset = None 对全体数据去重
subset = [‘列名’] 对某个指定列里面的内容去重
subset = [‘列名’,‘列名’] 对多个列里面的同时重复内容去重
keep='first’表示保留第一次出现的重复行,是默认值。
keep另外两个取值为"last"和False,分别表示保留最后一次出现的重复行和去除所有重复行。
inplace=True表示直接在原来的DataFrame上删除重复项,
默认值False表示生成一个副本。
举例:
下面是对多个列中出现的重复的内容去重
import pandas as pd
data = {'a':[1,1,1,2,3,4],
'b':['a','a','a','d','d','e']}
data = pd.DataFrame(data)
data = data.drop_duplicates(subset = ['a','b'],keep = 'first',inplace=False)
原数为:
a b
0 1 a
1 1 a
2 1 a
3 2 d
4 3 d
5 4 e
结果为:
a b
0 1 a
3 2 d
4 3 d
5 4 e