1.对字符串类型的数据,提取里面的数字。
我这里有一个dataframe格式的数据,每一列几乎都是数字+单位组成的一个字符串。在用机器学习进行分析的时候,由于每一列的数据单位都一样,可以忽略掉单位仅用数字进行分析即可。
具体操作方法:使用正则表达式,匹配整数和小数,并返回一个列表。
import re
for col in d_object.columns:
d_object[col] = d_object[col].map(lambda s:re.findall('-?[0-9]+\.[0-9]*|-?[0-9]+',str(s)))
print(d_object[col])
效果: