python爬取网页数据

最新推荐文章于 2024-07-09 14:45:02 发布

会发光的小姑娘biubiubiu

最新推荐文章于 2024-07-09 14:45:02 发布

阅读量533

点赞数

本文链接：https://blog.csdn.net/qq_37803488/article/details/83928406

版权

例

1访问https://www.51job.com/，在搜索框输入关键字：python java，用右边的加号选择北京、上海、广州、深圳四个城市，点击搜索按钮，同时谷歌浏览器的开发者工具，详细观察整个过程中http协议的请求以及响应的具体情况。.网页返回的内容是html格式的，下面是经过简化之后的部分页面内容：
北京-朝阳区
1.5-2万/月
10-16
深圳-龙华新区
1.5-2.5万/月
10-16
北京-海淀区
0.8-1.5万/月
10-16
广州
1.5-2万/月
10-16
请编写程序取出里面的数据部分，结果应该如下：
北京-朝阳区
1.5-2万/月
10-16
深圳-龙华新区
1.5-2.5万/月
10-16
北京-海淀区
0.8-1.5万/月
10-16
广州
1.5-2万/月
10-16

分别获取关键字是python、java，右边选择北京、上海、广州、深圳四个城市时前10页的招聘数据，用正则表达式解析获取的数据，按照以下格式把数据存储在文件中
关键字工作地点薪资min 薪资max
java 上海     1.5     1.6
java 深圳     1.5     3
java 上海     0.8     1
python 北京     1.5     2.5
python 广州     1.5     2.2

import urllib.request
import re
res='https://search.51job.com/list/010000%252C020000%252C030200%252C040000,000000,0000,00,9,99,Python,2,'
def title(finalurl):
    url = urllib.request.urlopen(finalurl)
    html = url.read().decode("GBK")
    re.findall('<span class="t3">(上海|北京|深圳|广州).*</span>\s*<span class="t4">(\d+\.?\d*)-(\d+\.?\d*)(千|万)/(年|月)</span>',html)
    a=[]
    a.append(re.findall('<span class="t3">(上海|北京|深圳|广州).*</span>\s*<span class="t4">(\d+\.?\d*)-(\d+\.?\d*)(千|万)/(年|月)</span>',html))
    file = open("E:file.txt",'a+')
    for i in range(len(a)):
        for j in range(len(a[i])):
            m = str(a[i][j]).replace('(','').replace(')','').replace("'",'').replace(',','')+'\n'
            file.write(m)
    file.close()
    
for i in range(2):
	   finalurl = res +str(i)+'.html'
	   title(finalurl)