python--爬虫51job(3.1)

③修改代码,分别获取关键字是python、java,右边选择北京、上海、广州、深圳四个城市时前10页的招聘数据,用正则表达式解析获取的数据,按照以下格式分别把数据存储在文件和数据库中
关键字 工作地点 薪资min 薪资max 
java   上海 1.5   1.6   
java   深圳   1.5    3    
java   上海   0.8    1    
python 北京   1.5    2.5   
python 广州    1.5    2.2   
提示:网页上的数据有两处需要处理:
一是工作地点,原始内容可能是上海-浦东新区,只保留前面的城市名上海
二是薪资,原始内容是1.2-1.8万/月或10-20万/年,把单位换算成一致的,并且把最小值和最大值分开存放

这次的作业是提取网页招聘信息并且保存在数据库中,数据库其实好办,主要是提取信息+处理信息;

首先关键字和地点都好处理,所以关键是薪资的提取和处理方式

这里也是要分为两种方式去做:

①将薪资部分全部提取后处理;②直接利用正则表达式提取更确切的数据再进行处理

先说一下我用的第一种方式:(下面基本上是核心代码)

1.设置所需变量

#我看了下初步处理信息,薪资一般有四种单位形式,所以分别进行变量设置;当然还有一种是面议不写薪资的,
#处理的时候else一下就可以
sala1="元/天"
sala2="千/月"
sala3="万/月"
sala4="万/年"
#这里列表h1存放薪资max和min
h1={}

2.建立提取函数

#薪资函数
def salary(s):
#这里的关键是利用maketrans函数,将单位替换为空,使得原数据没有单位,只留下数据,在进行薪资处理
    if(sala1 in s):
        s=s.translate(str.maketrans('', '', sala1))
#这种对应为200元/天这种类型的,去掉单位后只留下200,直接进行万/月单位转换即可h[0](最小值)h[1]#(最大值)即可
        hl[0]=float(s)*30/10000
        hl[1]=hl[0]
    elif(sala2 in s):
        s=s.translate(str.maketrans('', '', sala2))
#这种对应0.5-0.7类型的,要进行分片处理存到新的列表里再进行转换即可
        t=s.split('-')
        hl[0]=float(t[0])/10
        hl[1]=float(t[1])/10
    elif(sala3 in s):
        s=s.translate(str.maketrans('', '', sala3))
        t=s.split('-')
        hl[0]=float(t[0])
        hl[1]=float(t[1])
    elif(sala4 in s):
        s=s.translate(str.maketrans('', '', sala4))
        t=s.split('-')
        hl[0]=float(t[0])/12
        hl[1]=float(t[1])/12
    else:
        hl[0]=0.0;
        hl[1]=0.0;

这里的maketrans函数有仨参数(a,b,c)-----a替换为b;c对应的变为空;===》这个可以自行百度下

分片处理也很重要,要存到新的列表里,因为s进行分片后直接输出s会发现还是原来样子,所以要进行赋值才可以

当然也可以直接s=s.split(),意思都是一样的

而对于关键字/地点提取呢,你可以针对要求直接在正则表达式里进行或运算(java|python);(北京|广州|上海|深圳)

 

慢着!!!!!!!!!!上面的代码是不全面的,这次更新下代码(因为原来代码只考虑了200元/天,只考虑了元/天才会有一个数值的情况,所以更新下)

def salary(s):
    if('-' in s):
        if(sala1 in s):
            s=s.translate(str.maketrans('', '', sala1))
            t=s.split('-')
            hl[0]=float(t[0])*30/10000
            hl[1]=float(t[0])*30/10000                  
        elif(sala2 in s):
            s=s.translate(str.maketrans('', '', sala2))
            t=s.split('-')
            hl[0]=float(t[0])/10
            hl[1]=float(t[1])/10
        elif(sala3 in s):
            s=s.translate(str.maketrans('', '', sala3))
            t=s.split('-')
            hl[0]=float(t[0])
            hl[1]=float(t[1])
        elif(sala4 in s):
            s=s.translate(str.maketrans('', '', sala4))
            t=s.split('-')
            hl[0]=float(t[0])/12
            hl[1]=float(t[1])/12
        else:
            hl[0]=0.0;
            hl[1]=0.0;
    else:
        if(sala1 in s):
            s=s.translate(str.maketrans('', '', sala1))
            hl[0]=float(s)*30/10000
            hl[1]=hl[0]
                  
        elif(sala2 in s):
            s=s.translate(str.maketrans('', '', sala2))
            hl[0]=float(t[0])/10
            hl[1]=hl[0]
        elif(sala3 in s):
            s=s.translate(str.maketrans('', '', sala3))
            hl[0]=float(t[0])
            hl[1]=hl[0]
        elif(sala4 in s):
            s=s.translate(str.maketrans('', '', sala4))
            hl[0]=float(t[0])/12
            hl[1]=hl[0]
        else:
            hl[0]=0.0;
            hl[1]=0.0;

当然也可以提取之后设置函数再提取我们所需要的:
 

#设置变量
sh='上海'
gz='广州'
bj='北京'
sz='深圳'

python='python'
java='java'
#设置关键字、地点处理函数
def symb(s):
    if('python' in s or 'Python'in s or 'PYTHON'in s):
            list[0]='python'
            
    elif('java' in s or 'JAVA'in s or 'Java'in s):
            list[0]='java'
    else:
        return 0
def didian(s):
    if(gz in s):
            list[1]=gz
            
    elif(sh in s):
            list[1]=sh
            
    elif(bj in s):
            list[1]=bj
            
    elif(sz in s):
            list[1]=sz
    else:
        return 0

显而易见正则表达式里的或运算较为简单,当然那也得是数据较少的时候,如果嘟嘟噜噜一大堆,还是函数好使一点儿

当然这也只是我目前的看法

接下来就是数据库处理,很简单,直接贴代码

#多页处理,传入到数据库
conn=sqlite3.connect('py.db')
print("Opened databases successfully");
c=conn.cursor()
c.execute('''create table job5(
"关键字" char(50) not null,
"工作地点" char(50) not null,
"薪资min(万/月)" float,
"薪资max(万/月)" float
);''')
for  j in range(1,11):
    print("正在爬取第"+str(j)+"页数据...")
    html=get_content(j)#调用获取网页原码
    for i in get(html):
        symb(i[0])
        didian(i[1])
        salary(i[2])
        c.execute("insert into job5 values('%s','%s',%f,%f)"%(list[0],list[1],hl[0],hl[1]))
        #c.execute("insert into job2 values('java','深圳',1.5,3)")
        conn.commit()
    print("已经添加第"+str(j)+"页数据到数据库...")
       
conn.close()

当然啦这里传入的参数变量要依据正则表达式来

over

周末把正则表达式也就是②方法给搞明白

毕竟正则表达式用好了就会方便很多

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值