数据分析之pandas 数据清洗

(1)当打印dataframe的时候数据多可能pycharm 的控制台会显示不全,下面几行代码显示所有行和列:

#显示所有列
pd.set_option('display.max_columns', None)
#显示所有行
pd.set_option('display.max_rows', None)
#设置value的显示长度为100,默认为50
pd.set_option('max_colwidth', 100)

(2)在对数据进行清晰的时候会遇到,需要判断某几个关键字是否存在某个字符串里,这时候就用到python的内置函数any

       key_word = ['房产', '数据', '分析', 'ETC', 'java', 'JAVA', '人工智能']
        for index, row in data.iterrows(): 
        #data是一个dataframe,这里就是对dataframe的一个遍历,index是每一行的索引,row是每一行(Series类型)   
            if any(word in row['position_name'] for word in key_word):
                ss.append(row)
                # 如果存在key_word里的任意一个字符串,在这一行的position_name里就把这一行放入列表

(3)把一堆的Series转化为pandas(虽然它有to_frame方法但是,用这个方法,它会默认把series的values当作一列,跟预期的结果不符),然而就需要先把Series放进list然后再把list转化为dataframe,这样一来运行速度也快很多。

        key_word = ['房产', '数据', '分析', 'ETC', 'java', 'JAVA', '人工智能']
        for index, row in data.iterrows():
            try :
                if any(word in row['position_name'] for word in key_word):
                    ss.append(row)
            except Exception as e:
                print(e)
        df = pd.DataFrame(ss)

 

  • 0
    点赞
  • 3
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值