python--爬虫51job(3.1)_(4)处理“工作地点”列数据,统一只保留城市名-CSDN博客

本文链接：https://blog.csdn.net/qq_40210633/article/details/83858280

③修改代码，分别获取关键字是python、java，右边选择北京、上海、广州、深圳四个城市时前10页的招聘数据，用正则表达式解析获取的数据，按照以下格式分别把数据存储在文件和数据库中
关键字工作地点薪资min 薪资max
java 上海 1.5   1.6
java 深圳   1.5    3
java 上海   0.8    1
python 北京   1.5    2.5
python 广州   1.5    2.2
提示：网页上的数据有两处需要处理：
一是工作地点，原始内容可能是上海-浦东新区，只保留前面的城市名上海
二是薪资，原始内容是1.2-1.8万/月或10-20万/年，把单位换算成一致的，并且把最小值和最大值分开存放

这次的作业是提取网页招聘信息并且保存在数据库中，数据库其实好办，主要是提取信息+处理信息；

首先关键字和地点都好处理，所以关键是薪资的提取和处理方式

这里也是要分为两种方式去做：

①将薪资部分全部提取后处理；②直接利用正则表达式提取更确切的数据再进行处理

先说一下我用的第一种方式：（下面基本上是核心代码）

1.设置所需变量

#我看了下初步处理信息，薪资一般有四种单位形式，所以分别进行变量设置；当然还有一种是面议不写薪资的，
#处理的时候else一下就可以
sala1="元/天"
sala2="千/月"
sala3="万/月"
sala4="万/年"
#这里列表h1存放薪资max和min
h1={}

2.建立提取函数

#薪资函数
def salary(s):
#这里的关键是利用maketrans函数，将单位替换为空，使得原数据没有单位，只留下数据，在进行薪资处理
    if(sala1 in s):
        s=s.translate(str.maketrans('', '', sala1))
#这种对应为200元/天这种类型的，去掉单位后只留下200，直接进行万/月单位转换即可h[0]（最小值）h[1]#(最大值)即可
        hl[0]=float(s)*30/10000
        hl[1]=hl[0]
    elif(sala2 in s):
        s=s.translate(str.maketrans('', '', sala2))
#这种对应0.5-0.7类型的，要进行分片处理存到新的列表里再进行转换即可
        t=s.split('-')
        hl[0]=float(t[0])/10
        hl[1]=float(t[1])/10
    elif(sala3 in s):
        s=s.translate(str.maketrans('', '', sala3))
        t=s.split('-')
        hl[0]=float(t[0])
        hl[1]=float(t[1])
    elif(sala4 in s):
        s=s.translate(str.maketrans('', '', sala4))
        t=s.split('-')
        hl[0]=float(t[0])/12
        hl[1]=float(t[1])/12
    else:
        hl[0]=0.0;
        hl[1]=0.0;

这里的maketrans函数有仨参数（a,b,c）-----a替换为b;c对应的变为空；===》这个可以自行百度下

分片处理也很重要，要存到新的列表里，因为s进行分片后直接输出s会发现还是原来样子，所以要进行赋值才可以

当然也可以直接s=s.split()，意思都是一样的

而对于关键字/地点提取呢，你可以针对要求直接在正则表达式里进行或运算（java|python）;(北京|广州|上海|深圳)

慢着！！！！！！！！！！上面的代码是不全面的，这次更新下代码（因为原来代码只考虑了200元/天，只考虑了元/天才会有一个数值的情况，所以更新下）

def salary(s):
    if('-' in s):
        if(sala1 in s):
            s=s.translate(str.maketrans('', '', sala1))
            t=s.split('-')
            hl[0]=float(t[0])*30/10000
            hl[1]=float(t[0])*30/10000                  
        elif(sala2 in s):
            s=s.translate(str.maketrans('', '', sala2))
            t=s.split('-')
            hl[0]=float(t[0])/10
            hl[1]=float(t[1])/10
        elif(sala3 in s):
            s=s.translate(str.maketrans('', '', sala3))
            t=s.split('-')
            hl[0]=float(t[0])
            hl[1]=float(t[1])
        elif(sala4 in s):
            s=s.translate(str.maketrans('', '', sala4))
            t=s.split('-')
            hl[0]=float(t[0])/12
            hl[1]=float(t[1])/12
        else:
            hl[0]=0.0;
            hl[1]=0.0;
    else:
        if(sala1 in s):
            s=s.translate(str.maketrans('', '', sala1))
            hl[0]=float(s)*30/10000
            hl[1]=hl[0]
                  
        elif(sala2 in s):
            s=s.translate(str.maketrans('', '', sala2))
            hl[0]=float(t[0])/10
            hl[1]=hl[0]
        elif(sala3 in s):
            s=s.translate(str.maketrans('', '', sala3))
            hl[0]=float(t[0])
            hl[1]=hl[0]
        elif(sala4 in s):
            s=s.translate(str.maketrans('', '', sala4))
            hl[0]=float(t[0])/12
            hl[1]=hl[0]
        else:
            hl[0]=0.0;
            hl[1]=0.0;

当然也可以提取之后设置函数再提取我们所需要的：

#设置变量
sh='上海'
gz='广州'
bj='北京'
sz='深圳'

python='python'
java='java'

#设置关键字、地点处理函数
def symb(s):
    if('python' in s or 'Python'in s or 'PYTHON'in s):
            list[0]='python'
            
    elif('java' in s or 'JAVA'in s or 'Java'in s):
            list[0]='java'
    else:
        return 0
def didian(s):
    if(gz in s):
            list[1]=gz
            
    elif(sh in s):
            list[1]=sh
            
    elif(bj in s):
            list[1]=bj
            
    elif(sz in s):
            list[1]=sz
    else:
        return 0

显而易见正则表达式里的或运算较为简单，当然那也得是数据较少的时候，如果嘟嘟噜噜一大堆，还是函数好使一点儿

当然这也只是我目前的看法

接下来就是数据库处理，很简单，直接贴代码

#多页处理，传入到数据库
conn=sqlite3.connect('py.db')
print("Opened databases successfully");
c=conn.cursor()
c.execute('''create table job5(
"关键字" char(50) not null,
"工作地点" char(50) not null,
"薪资min(万/月)" float,
"薪资max(万/月)" float
);''')
for  j in range(1,11):
    print("正在爬取第"+str(j)+"页数据...")
    html=get_content(j)#调用获取网页原码
    for i in get(html):
        symb(i[0])
        didian(i[1])
        salary(i[2])
        c.execute("insert into job5 values('%s','%s',%f,%f)"%(list[0],list[1],hl[0],hl[1]))
        #c.execute("insert into job2 values('java','深圳',1.5,3)")
        conn.commit()
    print("已经添加第"+str(j)+"页数据到数据库...")
       
conn.close()

当然啦这里传入的参数变量要依据正则表达式来

over

周末把正则表达式也就是②方法给搞明白

毕竟正则表达式用好了就会方便很多