利用requests, xpath爬取站长网简历模板

hrflex

已于 2022-02-16 15:25:12 修改

阅读量634

点赞数 1

分类专栏： python爬虫项目文章标签： python 爬虫

于 2022-02-16 15:23:59 首次发布

本文链接：https://blog.csdn.net/qq_61177928/article/details/122964435

版权

本文介绍了使用Python的requests库和xpath解析技术，详细讲解如何爬取站长网上的简历模板。通过导入requests负责网络请求，lxml进行HTML解析，实现高效的数据抓取。

摘要由CSDN通过智能技术生成

导入模块：requests, lxml, os

import requests
from lxml import etree
import os


# 创建一个文件夹
def mkdir(path):
    isExists = os.path.exists(path)
    if not isExists:
        print('创建名字叫做', path, '的文件夹')
        os.makedirs(path)

# 获取htm链接，并返回一个完整的htm链接，获取标题
def get_html(url):
    response = requests.get(url=url,headers=headers)
    page_text = response.text
    tree = etree.HTML(page_text)
    htm_list = tree.xpath('//div[@class="bggray clearfix pt20"]/div[3]//p/a/@href')
    title = tree.xpath('//div[@class="bggray clearfix pt20"]/div[3]//p/a/text()')
    resume_htm_list = []
    # 添加https头并打包成一个列表
    for htm in htm_list:
        resume_htm = 'https:'+htm
        resume_htm_list.append(resume_htm)
    return resume_htm_list, title

# 获取rar下载链接
def get_resume(resume_htm_list):
    # 创建一个列表用来

最低0.47元/天解锁文章

hrflex

关注

1
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
利用requests, xpath爬取站长网简历模板

导入模块：requests, lxml, osimport requestsfrom lxml import etreeimport os# 创建一个文件夹def mkdir(path): isExists = os.path.exists(path) if not isExists: print('创建名字叫做', path, '的文件夹') os.makedirs(path)# 获取htm链接，并返回一个完整的htm链接，获取标题.
复制链接

扫一扫

专栏目录