机器学习——数据预处理——字符串数值特征提取(正则表达式)

这篇博客介绍了如何在Python中对DataFrame数据进行预处理,特别是从包含数字和单位的字符串列中提取纯数字。通过使用正则表达式,作者展示了如何遍历每一列,查找并返回所有的整数和小数,以便在机器学习分析中忽略单位,只使用数字。这种方法对于保持分析的一致性和准确性至关重要。
摘要由CSDN通过智能技术生成

1.对字符串类型的数据,提取里面的数字。

我这里有一个dataframe格式的数据,每一列几乎都是数字+单位组成的一个字符串。在用机器学习进行分析的时候,由于每一列的数据单位都一样,可以忽略掉单位仅用数字进行分析即可。

具体操作方法:使用正则表达式,匹配整数和小数,并返回一个列表。

import re
for col in d_object.columns:
    d_object[col] = d_object[col].map(lambda s:re.findall('-?[0-9]+\.[0-9]*|-?[0-9]+',str(s)))
    print(d_object[col])

效果:

 

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

白日梦想家_胖七七

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值