利用xpath爬取站长网站的免费简历模板

本文介绍了如何使用Python的XPath解析库lxml来爬取站长网站上的免费简历模板。首先讲解了XPath的基本原理和环境安装,接着详细阐述了爬取过程,包括获取所有简历页面URL、下载地址的提取以及分页操作。最后,提醒注意不同页面URL的规律,并提到可以以二进制方式保存rar文件。示例代码展示了整个爬取流程。
摘要由CSDN通过智能技术生成

爬前须知

xpath解析原理:
1.实例化一个etree对象,且仅需要将被解析的页面源码加载到该对象中
2.调用etree对象中的xpath方法结合着xpath表达式实现标签的定位和内容的捕获

  • 环境安装:
    pip install lxml
    -分析步骤:
    1.把第一个网页的所有简历的新页面url获取到
    2.到详情页,获取下载地址,对下载地址发起请求
    3.完成之后,再考虑进行分页操作

#常规步骤:’’‘举例
0.创建文件夹用来存放爬取到的数据
{
if not os.path.exists(’./moban’):
os.mkdir(’./moban’)
}
1.获取url响应数据 page_text
2.实例化一个对象 tree,通过 etree.HTML(page_text)
3.利用xpath工具定位到想要获取的内容 tree.xpath(’/div[@class=‘ss’]/ul/li/a’)
4.for循环遍历获得多个属性,并进行提取alt = li.xpath(’./a/img/@alt’)[0]
5.进行持久化存储
{
1.获得新的url对应图片的响应数据 data = requests.get().content
2.img_path = ‘moban/’+img_name
}
‘’’
注意
1.通过观察第一页的url :http://sc.chinaz.com/jianli/free.html
与后面页面的规律不同,需要额外爬取。即爬取第一页,和第二页到第N页的模板。
2…rar文件可以二进制文件形式写入
3.获取新的url之后,需要对新的url进行实例化,这一步很容易遗漏

代码

import requests
import os
from lxml import etree

if not os.path.exists(
评论 3
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值