python文本分析 提取数据含义_从文本字符串中提取数据进行分析

需求

在进行数据分析的时候,有时候会碰到需要从文本字符串中提取需要的数据来进行分析的情况,这种需求在网络爬虫数据分析非常常见。

比如,需要下列表格“基础薪资规则”字段中提取阶梯单量和价格。而且表格中,大部分规则是4档单量和价格,也有部分是3档规则和价格。

185099a9c4fe64eac8ce047ba4d4b328.png

格式为:

第1档单量

第2档单量

第3档单量

第4档单量

第1档价格

第2档价格

第3档价格

第4档价格

200

250

300

9999

3.8

4.8

5.0

5.2

200

250

300

9999

3.8

4.8

5.0

5.2

方法

使用Python中档re模块, 能够从一串有规律文本字符串中提取所需要档数据,配合正则表达式,功能非常强大。

# 提取特征数字,由于存在多个数字,findall()会返回一个列表

# 数据的pattern特征,注意到[0,200)单中需要提取数字200,前面是一个逗号,后面是一个括号+单,提取的内容放在()里,200后的括号,要识别“)”需要用到转义符号\

def find_orderNum(x):

patt = ',(.*?)\)单'

pattern = re.compile(patt)

return pattern.findall(x)

df['档位单量'] = df['基础薪资规则'].apply(find_orderNum)

# 现有档位数

def find_step_num(x):

return len(x)

df['现档位数'] = df['档位价格'].apply(find_step_num)

# 拆分阶梯单量

def find_orderNum1(x):

return eval(x[0])

def find_orderNum2(x):

return eval(x[1])

def find_orderNum3(x):

return eval(x[2])

def find_orderNum4(x):

if len(x)>3:

return eval(x[3])

else:

return eval(x[2])

df['现一档单量'] = df['档位单量'].apply(find_orderNum1)

df['现二档单量'] = df['档位单量'].apply(find_orderNum2)

df['现三档单量'] = df['档位单量'].apply(find_orderNum3)

df['现四档单量'] = df['档位单量'].apply(find_orderNum4)

结果如下:

f34e5628a4d78c362fa22abac5a11f98.png

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值