python运用正则表达式进行数据处理

上一篇:爬虫篇

待处理数据集

处理后数据集

正则表达式,又称规则表达式(英语:Regular Expression,在代码中常简写为regex、regexp或RE),计算机科学的一个概念。正则表达式通常被用来检索、替换那些符合某个模式(规则)的文本。——百度百科

现在我们处理一下之前所获得的招聘数据,想达到的目标如下:

1.去掉职位中的括号及集中内容

2.薪酬的格式不易统计,改成统一单位,并分割成最低薪酬与最高薪酬

3.将地区去掉区级单位,以便可视化统计

4.将学历要求中的招**人统一改为无学历要求

 1.去掉职位中的括号及集中内容

def get_position(position):
    #str1 = '数据挖掘工程师(J190626031)				(职位编号:J190626031)'处理
    #去掉制表符
    temp1= re.sub('\t', '', position)
    #去掉括号中的内容,英文的括号要加反斜杠
    temp2 = re.sub('\(.*?\)','',temp1)
    #去掉括号中的内容,中文括号
    pos = re.sub('(.*?)', '', temp2)
    return pos

2.薪酬改成统一单位,并分割成最低薪酬与最高薪酬

#利用正则表达式提取月薪,把待遇规范成千/月的形式
def get_salary(salary):
    if '-'in salary: #针对1-2万/月或者10-20万/年的情况,包含-
        low_salary=re.findall(re.compile('(\d*\.?\d+)'),salary)[0]
        high_salary=re.findall(re.compile('(\d?\.?\d+)'),salary)[1]
        if u'万' in salary and u'年' in salary:#单位统一成千/月的形式
 
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值