python爬站长素材中的免费简历

仅做学习用,不对相关网站抱有任何恶意或不良影响。

网站:站长素材-分享综合设计素材免费下载的平台

目标是爬取一些简历,在这里选中简历

随便挑一个类别:

import requests
from lxml import etree
import os

header = {
 把你自己的搞进去啊
}

if not os.path.exists('d:/jianli'):
    os.mkdir('d:/jianli')
# 进行翻页下载
for page in range(0, 4):
    if page == 0: 
        url = 'https://sc.chinaz.com/tag_jianli/GongChengShi.html' # 首页不带数字下标
    else:
        url = 'https://sc.chinaz.com/tag_jianli/GongChengShi_' + str(page) + '.html'
    response = requests.get(url, headers=header).text
    # response.encode('utf-8')
    tree = etree.HTML(response)
    resume_list = tree.xpath('//div[@id="main"]/div/div/a/@href')  # 这个很重要,要定位准确
    #  对一个简历详情进行查找下载
    for deatil in resume_list:
        every_url = 'https://sc.chinaz.com' + deatil

        info = requests.get(every_url, headers=header).content  # 乱码解决方案1
        little_tree = etree.HTML(info)
        try:  # 存在付费情况,无相关链接会报错
            resume_name = little_tree.xpath('//div[@class="ppt_tit clearfix"]/h1/text()')[0]  # 列表取出字符
            download_url = little_tree.xpath('//div[@class="down_wrap"]/div[2]/ul/li[1]/a/@href')[0]
            resume_get = requests.get(download_url, headers=header).content

            with open("d:/jianli/" + resume_name + '.rar', 'wb') as f:
                f.write(resume_get)
            print(resume_name + '下载成功')
        except:
            continue

 

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值