爬虫之爬取求职小网站

 
  

import requests
form bs4 import BeautifulSoup



爬取实习生的网站 https:
//www.shixiseng.com/it/2 def translate_number(s): s = s.encode("utf-8") s = s.replace(b"\xee\x83\x88",b"0")#字符串替换 将二进制数据替换成数字 s = s.replace(b"\xee\xbb\x85",b"1")#字符串替换 s = s.replace(b"\xef\x8b\x85",b"2")#字符串替换 s = s.replace(b"\xee\x8f\xbe",b"3")#字符串替换 s = s.replace(b"\xee\xb8\xae",b"4")#字符串替换 s = s.replace(b"\xee\x96\x83",b"5")#字符串替换 s = s.replace(b"\xef\x86\xb1",b"6")#字符串替换 s = s.replace(b"\xef\x91\xa8",b"7")#字符串替换 s = s.replace(b"\xef\x8a\x9b",b"8")#字符串替换 s = s.replace(b"\xef\x9b\xbb",b"9")#字符串替换 return s.decode("utf-8") def url(): req = requests.get(url) html = req.text#获取标签中的文本值 soup = BeautifulSoup(html,"lxml") job_name = soup.select(".new_job_name“)[0].string company_name = soup.select(".job_com_name")[0].string job_position = soup.select(".job_position")[0].string job_academic = soup.select(".job_academic")[0].string job_money = translate_number(soup.select(".job_money")[0].string.encode("utf-8")) print(job_money) print("职位:{},公司:{},地点:{},学历:{},薪资:{}”.format(job_name,conpany_name,job_position,job_academic,job_money) for page in range(20): #输入需要爬取的网站网址来进行爬取 rep = requests.get("https://www.shixiseng.com/it/2".format(page)) html = req.text#获取标签中的文本值 soup= BeautifulSoup(html,"lxml") for job in soup.select("a.name") url = job.get("herf") print(url) detail_page("https://www.shixiseng.com"+detail_url)

 

转载于:https://www.cnblogs.com/tangda/p/10824273.html

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值