③修改代码,分别获取关键字是python、java,右边选择北京、上海、广州、深圳四个城市时前10页的招聘数据,用正则表达式解析获取的数据,按照以下格式分别把数据存储在文件和数据库中
关键字 工作地点 薪资min 薪资max
java 上海 1.5 1.6
java 深圳 1.5 3
java 上海 0.8 1
python 北京 1.5 2.5
python 广州 1.5 2.2
提示:网页上的数据有两处需要处理:
一是工作地点,原始内容可能是上海-浦东新区,只保留前面的城市名上海
二是薪资,原始内容是1.2-1.8万/月或10-20万/年,把单位换算成一致的,并且把最小值和最大值分开存放
这次的作业是提取网页招聘信息并且保存在数据库中,数据库其实好办,主要是提取信息+处理信息;
首先关键字和地点都好处理,所以关键是薪资的提取和处理方式
这里也是要分为两种方式去做:
①将薪资部分全部提取后处理;②直接利用正则表达式提取更确切的数据再进行处理
先说一下我用的第一种方式:(下面基本上是核心代码)
1.设置所需变量
#我看了下初步处理信息,薪资一般有四种单位形式,所以分别进行变量设置;当然还有一种是面议不写薪资的,
#处理的时候else一下就可以
sala1="元/天"
sala2="千/月"
sala3="万/月"
sala4="万/年"
#这里列表h1存放薪资max和min
h1={}
2.建立提取函数
#薪资函数
def salary(s):
#这里的关键是利用maketrans函数,将单位替换为空,使得原数据没有单位,只留下数据,在进行薪资处理
if(sala1 in s):
s=s.translate(str.maketrans('', '', sala1))
#这种对应为200元/天这种类型的,去掉单位后只留下200,直接进行万/月单位转换即可h[0](最小值)h[1]#(最大值)即可
hl[0]=float(s)*30/10000
hl[1]=hl[0]
elif(sala2 in s):
s=s.translate(str.maketrans('', '', sala2))
#这种对应0.5-0.7类型的,要进行分片处理存到新的列表里再进行转换即可
t=s.split('-')
hl[0]=float(t[0])/10
hl[1]=float(t[1])/10
elif(sala3 in s):
s=s.translate(str.maketrans('', '', sala3))
t=s.split('-')
hl[0]=float(t[0])
hl[1]=float(t[1])
elif(sala4 in s):
s=s.translate(str.maketrans('', '', sala4))
t=s.split('-')
hl[0]=float(t[0])/12
hl[1]=float(t[1])/12
else:
hl[0]=0.0;
hl[1]=0.0;
这里的maketrans函数有仨参数(a,b,c)-----a替换为b;c对应的变为空;===》这个可以自行百度下
分片处理也很重要,要存到新的列表里,因为s进行分片后直接输出s会发现还是原来样子,所以要进行赋值才可以
当然也可以直接s=s.split(),意思都是一样的
而对于关键字/地点提取呢,你可以针对要求直接在正则表达式里进行或运算(java|python);(北京|广州|上海|深圳)
慢着!!!!!!!!!!上面的代码是不全面的,这次更新下代码(因为原来代码只考虑了200元/天,只考虑了元/天才会有一个数值的情况,所以更新下)
def salary(s):
if('-' in s):
if(sala1 in s):
s=s.translate(str.maketrans('', '', sala1))
t=s.split('-')
hl[0]=float(t[0])*30/10000
hl[1]=float(t[0])*30/10000
elif(sala2 in s):
s=s.translate(str.maketrans('', '', sala2))
t=s.split('-')
hl[0]=float(t[0])/10
hl[1]=float(t[1])/10
elif(sala3 in s):
s=s.translate(str.maketrans('', '', sala3))
t=s.split('-')
hl[0]=float(t[0])
hl[1]=float(t[1])
elif(sala4 in s):
s=s.translate(str.maketrans('', '', sala4))
t=s.split('-')
hl[0]=float(t[0])/12
hl[1]=float(t[1])/12
else:
hl[0]=0.0;
hl[1]=0.0;
else:
if(sala1 in s):
s=s.translate(str.maketrans('', '', sala1))
hl[0]=float(s)*30/10000
hl[1]=hl[0]
elif(sala2 in s):
s=s.translate(str.maketrans('', '', sala2))
hl[0]=float(t[0])/10
hl[1]=hl[0]
elif(sala3 in s):
s=s.translate(str.maketrans('', '', sala3))
hl[0]=float(t[0])
hl[1]=hl[0]
elif(sala4 in s):
s=s.translate(str.maketrans('', '', sala4))
hl[0]=float(t[0])/12
hl[1]=hl[0]
else:
hl[0]=0.0;
hl[1]=0.0;
当然也可以提取之后设置函数再提取我们所需要的:
#设置变量
sh='上海'
gz='广州'
bj='北京'
sz='深圳'
python='python'
java='java'
#设置关键字、地点处理函数
def symb(s):
if('python' in s or 'Python'in s or 'PYTHON'in s):
list[0]='python'
elif('java' in s or 'JAVA'in s or 'Java'in s):
list[0]='java'
else:
return 0
def didian(s):
if(gz in s):
list[1]=gz
elif(sh in s):
list[1]=sh
elif(bj in s):
list[1]=bj
elif(sz in s):
list[1]=sz
else:
return 0
显而易见正则表达式里的或运算较为简单,当然那也得是数据较少的时候,如果嘟嘟噜噜一大堆,还是函数好使一点儿
当然这也只是我目前的看法
接下来就是数据库处理,很简单,直接贴代码
#多页处理,传入到数据库
conn=sqlite3.connect('py.db')
print("Opened databases successfully");
c=conn.cursor()
c.execute('''create table job5(
"关键字" char(50) not null,
"工作地点" char(50) not null,
"薪资min(万/月)" float,
"薪资max(万/月)" float
);''')
for j in range(1,11):
print("正在爬取第"+str(j)+"页数据...")
html=get_content(j)#调用获取网页原码
for i in get(html):
symb(i[0])
didian(i[1])
salary(i[2])
c.execute("insert into job5 values('%s','%s',%f,%f)"%(list[0],list[1],hl[0],hl[1]))
#c.execute("insert into job2 values('java','深圳',1.5,3)")
conn.commit()
print("已经添加第"+str(j)+"页数据到数据库...")
conn.close()
当然啦这里传入的参数变量要依据正则表达式来
over
周末把正则表达式也就是②方法给搞明白
毕竟正则表达式用好了就会方便很多