import pandas as pd
# 1、读取数据
#读取xls
df = pd.read_excel('制造商重码.xls')
#读取csv
df=pd.read_csv('HR_PERSONAL_ORGANIZATION.txt',sep=',',header=None,encoding='utf-8',error_bad_lines=False)
#或者自己生成数据
df=pd.DataFrame(np.random.randn(6,5),columns=['a','b','c','d','e'])
### 2、pandas操作具体数值:(赋缺失值)
#查看有多少行
print(len(df.index.values))
#查看有多少列
print(len(df.columns.values))
df.iloc[4:6,0] = np.nan
df.iloc[5:7,2] = np.nan
df.iloc[7,3] = np.nan
df.iloc[2:3,4] = np.nan
## 3、、缺失值
#判断表是否有缺失值,
df = df.isnull()
#输出哪些列有缺失值
df = df.isnull().any()
#输出每列缺失值的数量:
df = df.isnull().sum()
# 4、清理缺失值
df = df.dropna()
df.dropna(how = 'all') # 传入这个参数后将只丢弃全为缺失值的那些行,axis默认值为0
df.dropna(axis = 1) # 丢弃有缺失值的列(一般不会这么做,这样会删掉一个特征)
df.dropna(axis=1,how="all") # 丢弃全为缺失值的那些列
df.dropna(axis=0,subset = ["a", "e"]) # 丢弃‘a’和‘e’这两列中有缺失值的行
#5、删除某一列
del df['MANUFACTURE_CODE1']
#6、去重
df.drop_duplicates(subset=['MANUFACTURE_CODE1_NAME','MANUFACTURE_CODE2_NAME'],keep='first',inplace=True)
# 7、将空值替换为1
df = df.replace('NaN','1')
pandas使用指南
最新推荐文章于 2024-02-25 22:44:15 发布