pandas数据清洗实例-apply|applymap

pandas数据清洗实例-apply|applymap

*pandas数据清洗
*apply()函数、applymap()函数应用
*正则表达式

前言

从某网中爬取了上海浦东地区的房价数据【数据下载】,如下所示,发现“单价”和“房屋总价”两项数据都是文本型数据,且都含有单位或者标点符号,不利于分析、应用。接下来,我就通过正则表达式的方式来对数据进行处理。
在这里插入图片描述

(一)利用正则表达式提取数字

考虑到数据既有数字又有汉字和标点符号,而且“单价”中的数字是被逗号分隔开。那么可以通过采取将汉字和标点符号全部去除的方式,来保留纯数字。正则表达式如下:

re.sub("\D","",str)

\D:匹配费数字,sub函数将所有非数字替换成“”

(二)将“单价”和“房屋总价”两列数据整体应用上述正则表达式

接下来就是要解决怎么将“单价”和“房屋总价”两列数据都通过正则表达式,进行数据清洗。
apply()函数: 用于Series实现对每个值进行某种运算,或者是用于Dataframe实现对某个轴的Series进行某种运算;
applymap()函数: 只能用于DataFrame,用于处理对DataFrame的每个元素进行某种运算;
用法如下:

    fun = lambda x:re.sub("\D","",x)                                                #\D:匹配费数字,sub函数将所有非数字替换成“”
    data['房屋总价'] = data['房屋总价'].astype(str)
    #data['房屋总价'] = data['房屋总价'].apply(fun)                                     #数据清洗
    # data['单价'] = pd.to_numeric(data['单价'], errors='ignore')
    data1 = data.loc[:,['单价', '房屋总价']]
    data.loc[:, ['单价', '房屋总价']] = data.loc[:,['单价', '房屋总价']].applymap(fun)

至此,处理结果如下:
在这里插入图片描述
后续将推出在tableau中进行数据可视化分析的演示案例。

附:
1、全部源代码链接:数据爬虫源代码
2、数据:12月浦东二手房挂牌价

  • 0
    点赞
  • 4
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

liuyunfeng_c

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值