爬虫之爬取求职小网站-CSDN博客

import requests
form bs4 import BeautifulSoup



爬取实习生的网站
https://www.shixiseng.com/it/2


def translate_number(s):
    s = s.encode("utf-8")
    
    s = s.replace(b"\xee\x83\x88",b"0")#字符串替换  将二进制数据替换成数字
    s = s.replace(b"\xee\xbb\x85",b"1")#字符串替换
    s = s.replace(b"\xef\x8b\x85",b"2")#字符串替换
    s = s.replace(b"\xee\x8f\xbe",b"3")#字符串替换
    s = s.replace(b"\xee\xb8\xae",b"4")#字符串替换
    s = s.replace(b"\xee\x96\x83",b"5")#字符串替换
    s = s.replace(b"\xef\x86\xb1",b"6")#字符串替换
    s = s.replace(b"\xef\x91\xa8",b"7")#字符串替换
    s = s.replace(b"\xef\x8a\x9b",b"8")#字符串替换
    s = s.replace(b"\xef\x9b\xbb",b"9")#字符串替换
    return s.decode("utf-8")


def url():
    req = requests.get(url)
    html = req.text#获取标签中的文本值
    soup = BeautifulSoup(html,"lxml"）
    
    job_name = soup.select(".new_job_name“)[0].string
    company_name = soup.select(".job_com_name")[0].string
    job_position = soup.select(".job_position")[0].string 
    job_academic = soup.select(".job_academic")[0].string
    job_money = translate_number(soup.select(".job_money")[0].string.encode("utf-8"))
    print(job_money)    
    print("职位：{}，公司：{}，地点：{}，学历：{},薪资：{}”.format(job_name,conpany_name,job_position,job_academic,job_money)
    
    
for page in range(20):
    #输入需要爬取的网站网址来进行爬取
    rep = requests.get("https://www.shixiseng.com/it/2".format(page))
    html = req.text#获取标签中的文本值
    soup= BeautifulSoup(html,"lxml")
    for job in soup.select("a.name")
        url = job.get("herf")
        print(url)
        detail_page("https://www.shixiseng.com"+detail_url)

转载于:https://www.cnblogs.com/tangda/p/10824273.html