批量下载简历模板

最新推荐文章于 2023-03-11 23:15:38 发布

THISFOREVERYONE

最新推荐文章于 2023-03-11 23:15:38 发布

阅读量313

点赞数

分类专栏： python-spider-basic

本文链接：https://blog.csdn.net/thisforeveryone/article/details/108944433

版权

python-spider-basic 专栏收录该内容

8 篇文章 0 订阅

订阅专栏

源代码

import requests
import os
from lxml import etree

headers = {
    'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) '
                  'AppleWebKit/537.36 (KHTML, like Gecko) Chrome/85.0.4183.121 Safari/537.36'
}

if not os.path.exists('resume_template'):
    os.mkdir('resume_template')


url_cnt = download_cnt = 0
template_url_list = []
template_name = []
download_url_list = []

url = 'http://sc.chinaz.com/jianli/free_%d.html'
for i in range(1, 6):
    if i == 1:
        entrance_url = 'http://sc.chinaz.com/jianli/free.html'
    else:
        entrance_url = format(url % i)
    entrance_page = requests.get(url=entrance_url, headers=headers)
    entrance_page.encoding='utf-8'
    tree = etree.HTML(entrance_page.text)
    entrance_list = tree.xpath('//div[@id="main"]//p/a')

    for item in entrance_list:
        name = item.xpath('./text()')[0]
        addr = item.xpath('./@href')[0]
        # print(title)
        # print(addr)
        template_url_list.append(addr)
        template_name.append(name)
        url_cnt += 1

print(url_cnt)
for i in range(len(template_url_list)):
    template_url = template_url_list[i]
    print(template_url)
    template_page = requests.get(url=template_url, headers=headers).text
    tree = etree.HTML(template_page)
    download_url = tree.xpath('//div[@class="down_wrap"]//ul/li[10]/a/@href')[0]

    path = './resume_template/' + template_name[i]
    # if not os.path.exists(path):
    #     os.mkdir(path)
    #     print("make")

    template = requests.get(url=download_url, headers=headers).content
    # z = zipfile.ZipFile(io.BytesIO(template))
    # z.extractall(path)


    with open(path + '.rar', 'wb') as f:
        f.write(template)
        download_cnt += 1
    download_url_list.append(download_url)

print(download_cnt)