上一篇:爬虫篇
正则表达式,又称规则表达式。(英语:Regular Expression,在代码中常简写为regex、regexp或RE),计算机科学的一个概念。正则表达式通常被用来检索、替换那些符合某个模式(规则)的文本。——百度百科
现在我们处理一下之前所获得的招聘数据,想达到的目标如下:
1.去掉职位中的括号及集中内容
2.薪酬的格式不易统计,改成统一单位,并分割成最低薪酬与最高薪酬
3.将地区去掉区级单位,以便可视化统计
4.将学历要求中的招**人统一改为无学历要求
1.去掉职位中的括号及集中内容
def get_position(position):
#str1 = '数据挖掘工程师(J190626031) (职位编号:J190626031)'处理
#去掉制表符
temp1= re.sub('\t', '', position)
#去掉括号中的内容,英文的括号要加反斜杠
temp2 = re.sub('\(.*?\)','',temp1)
#去掉括号中的内容,中文括号
pos = re.sub('(.*?)', '', temp2)
return pos
2.薪酬改成统一单位,并分割成最低薪酬与最高薪酬
#利用正则表达式提取月薪,把待遇规范成千/月的形式
def get_salary(salary):
if '-'in salary: #针对1-2万/月或者10-20万/年的情况,包含-
low_salary=re.findall(re.compile('(\d*\.?\d+)'),salary)[0]
high_salary=re.findall(re.compile('(\d?\.?\d+)'),salary)[1]
if u'万' in salary and u'年' in salary:#单位统一成千/月的形式