利用requests, xpath爬取站长网简历模板

本文介绍了使用Python的requests库和xpath解析技术,详细讲解如何爬取站长网上的简历模板。通过导入requests负责网络请求,lxml进行HTML解析,实现高效的数据抓取。
摘要由CSDN通过智能技术生成

导入模块:requests, lxml, os

import requests
from lxml import etree
import os


# 创建一个文件夹
def mkdir(path):
    isExists = os.path.exists(path)
    if not isExists:
        print('创建名字叫做', path, '的文件夹')
        os.makedirs(path)

# 获取htm链接,并返回一个完整的htm链接,获取标题
def get_html(url):
    response = requests.get(url=url,headers=headers)
    page_text = response.text
    tree = etree.HTML(page_text)
    htm_list = tree.xpath('//div[@class="bggray clearfix pt20"]/div[3]//p/a/@href')
    title = tree.xpath('//div[@class="bggray clearfix pt20"]/div[3]//p/a/text()')
    resume_htm_list = []
    # 添加https头并打包成一个列表
    for htm in htm_list:
        resume_htm = 'https:'+htm
        resume_htm_list.append(resume_htm)
    return resume_htm_list, title

# 获取rar下载链接
def get_resume(resume_htm_list):
    # 创建一个列表用来
  • 1
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值