pandas使用指南

6 篇文章 0 订阅
1 篇文章 0 订阅
import pandas as pd

# 1、读取数据
#读取xls
df = pd.read_excel('制造商重码.xls')
#读取csv
df=pd.read_csv('HR_PERSONAL_ORGANIZATION.txt',sep=',',header=None,encoding='utf-8',error_bad_lines=False)
#或者自己生成数据
df=pd.DataFrame(np.random.randn(6,5),columns=['a','b','c','d','e'])

### 2、pandas操作具体数值:(赋缺失值)
#查看有多少行
print(len(df.index.values))
#查看有多少列
print(len(df.columns.values))
df.iloc[4:6,0] = np.nan
df.iloc[5:7,2] = np.nan
df.iloc[7,3] = np.nan
df.iloc[2:3,4] = np.nan

## 3、、缺失值
#判断表是否有缺失值,
df = df.isnull() 
#输出哪些列有缺失值
df = df.isnull().any()
#输出每列缺失值的数量:
df = df.isnull().sum()

# 4、清理缺失值
df = df.dropna()
df.dropna(how = 'all')    # 传入这个参数后将只丢弃全为缺失值的那些行,axis默认值为0
df.dropna(axis = 1)       # 丢弃有缺失值的列(一般不会这么做,这样会删掉一个特征)
df.dropna(axis=1,how="all")   # 丢弃全为缺失值的那些列
df.dropna(axis=0,subset = ["a", "e"])   # 丢弃‘a’和‘e’这两列中有缺失值的行 

#5、删除某一列
del df['MANUFACTURE_CODE1']

#6、去重
df.drop_duplicates(subset=['MANUFACTURE_CODE1_NAME','MANUFACTURE_CODE2_NAME'],keep='first',inplace=True)

# 7、将空值替换为1
df = df.replace('NaN','1')
  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值