一个Python爬虫案例，带你掌握xpath数据解析方法！_python xpath解析url的title

2401_84140112

于 2024-04-18 19:36:44 发布

阅读量878

点赞数 16

分类专栏： 2024年程序员学习文章标签： python 爬虫开发语言

本文链接：https://blog.csdn.net/2401_84140112/article/details/137934350

版权

2024年程序员学习专栏收录该内容

82 篇文章 0 订阅

订阅专栏

先自我介绍一下，小编浙江大学毕业，去过华为、字节跳动等大厂，目前阿里P7

深知大多数程序员，想要提升技能，往往是自己摸索成长，但自己不成体系的自学效果低效又漫长，而且极易碰到天花板技术停滞不前！

因此收集整理了一份《2024年最新Python全套学习资料》，初衷也很简单，就是希望能够帮助到想自学提升又不知道该从何学起的朋友。

既有适合小白学习的零基础资料，也有适合3年以上经验的小伙伴深入学习提升的进阶课程，涵盖了95%以上Python知识点，真正体系化！

由于文件比较多，这里只是将部分目录截图出来，全套包含大厂面经、学习笔记、源码讲义、实战项目、大纲路线、讲解视频，并且后续会持续更新

如果你需要这些资料，可以添加V获取：vip1024c （备注Python）

正文

import requests


![在这里插入图片描述](https://img-blog.csdnimg.cn/b64f850b778f40a1b226c5395229a389.png)  
 xpath图片解析下载实例


爬取网址


https://pic.netbian.com/4kmeinv/完整代码

import requests,os
from lxml import etree

if name == ‘main’:
headers = {
‘User-Agent’: ‘Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/84.0.4147.105 Safari/537.36’
}
url = ‘https://pic.netbian.com/4kmeinv/’
page_text = requests.get(url=url,headers=headers).text
tree = etree.HTML(page_text)
li_list = tree.xpath(‘//div[@class=“slist”]/ul/li/a’)
if not os.path.exists(‘./piclibs’):
os.mkdir(‘./piclibs’)
for li in li_list:
detail_url =‘https://pic.netbian.com’ + li.xpath(‘./img/@src’)[0]
detail_name = li.xpath(‘./img/@alt’)[0]+‘.jpg’
detail_name = detail_name.encode(‘iso-8859-1’).decode(‘GBK’)
detail_path = ‘./piclibs/’ + detail_name
detail_data = requests.get(url=detail_url, headers=headers).content
with open(detail_path,‘wb’) as fp:
fp.write(detail_data)
print(detail_name,‘seccess!!’)


![在这里插入图片描述](https://img-blog.csdnimg.cn/4d0a785bde904a0ab68d43194555accb.png)  
 xpath爬取全国城市名称实例


爬取网址


https://www.aqistudy.cn/historydata/完整代码

import requests
from lxml import etree

if name == ‘main’:
url = ‘https://www.aqistudy.cn/historydata/’
headers = {
‘User-Agent’: ‘Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/87.0.4280.141 Safari/537.36’,
}
page_text = requests.get(url=url,headers=headers).content.decode(‘utf-8’)
tree = etree.HTML(page_text)
#热门城市 //div[@class=“bottom”]/ul/li
#全部城市 //div[@class=“bottom”]/ul/div[2]/li
a_list = tree.xpath(‘//div[@class=“bottom”]/ul/li | //div[@class=“bottom”]/ul/div[2]/li’)
fp = open(‘./citys.txt’,‘w’,encoding=‘utf-8’)
i = 0
for a in a_list:
city_name = a.xpath(‘.//a/text()’)[0]
fp.write(city_name+‘\t’)
i=i+1
if i == 6:
i = 0
fp.write(‘\n’)
print(‘爬取成功’)


![在这里插入图片描述](https://img-blog.csdnimg.cn/784afa9cd08a4033b5f2b53d1023ee80.png)


xpath爬取简历模板实例


爬取网址


https://sc.chinaz.com/jianli/free.html完整代码

import requests,os
from lxml import etree

if name == ‘main’:
url = ‘https://sc.chinaz.com/jianli/free.html’
headers = {
‘User-Agent’: ‘Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/87.0.4280.141 Safari/537.36’,
}
page_text = requests.get(url=url,headers=headers).content.decode(‘utf-8’)
tree = etree.HTML(page_text)
a_list = tree.xpath(‘//div[@class=“box col3 ws_block”]/a’)
if not os.path.exists(‘./简历模板’):
os.mkdir(‘./简历模板’)
for a in a_list:
detail_url = ‘https:’+a.xpath(‘./@href’)[0]
detail_page_text = requests.get(url=detail_url,headers=headers).content.decode(‘utf-8’)
detail_tree = etree.HTML(detail_page_text)
detail_a_list = detail_tree.xpath(‘//div[@class=“clearfix mt20 downlist”]/ul/li[1]/a’)
for a in detail_a_list:
download_name = detail_tree.xpath(‘//div[@class=“ppt_tit clearfix”]/h1/text()’)[0]
download_url = a.xpath(‘./@href’)[0]
download_data = requests.get(url=download_url,headers=headers).content
download_path = ‘./简历模板/’+download_name+‘.rar’
with open(download_path,‘wb’) as fp:
fp.write(download_data)
print(download_name,‘success!!’)


![在这里插入图片描述](https://img-blog.csdnimg.cn/92c17f1b4fa44cdc90d897e84c0f669a.png)  
 **最后我自己整理了一些学习资料，都是别人分享给我的，希望对你们有帮助。  
 朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费】。**



![](https://img-blog.csdnimg.cn/img_convert/8fc109a1d43bcac59f4e7647f07a1c74.png)



### 一、Python所有方向的学习路线


Python所有方向的技术点做的整理，形成各个领域的知识点汇总，它的用处就在于，你可以按照上面的知识点去找对应的学习资源，保证自己学得较为全面。  
 ![在这里插入图片描述](https://img-blog.csdnimg.cn/a6067e55c54b49078778d56ea0db7fe2.png)


### 二、Python必备开发工具


![在这里插入图片描述](https://img-blog.csdnimg.cn/e496e6652efd47f5bbe73ad2ee082d4a.png)


### 三、Python视频合集


观看零基础学习视频，看视频学习是最快捷也是最有效果的方式，跟着视频中老师的思路，从基础到深入，还是很容易入门的。  
 ![在这里插入图片描述](https://img-blog.csdnimg.cn/c6ac9e53d20b448ab9f2837b7f173b94.png)


### 四、实战案例


光学理论是没用的，要学会跟着一起敲，要动手实操，才能将自己的所学运用到实际当中去，这时候可以搞点实战案例来学习。![在这里插入图片描述](https://img-blog.csdnimg.cn/7b7d7e133d984b85a09422c3ccfa7396.png)


### 五、Python练习题


检查学习结果。  
 ![在这里插入图片描述](https://img-blog.csdnimg.cn/f10f8ee9d86444cb922630d860eb83c0.png)


### 六、面试资料


我们学习Python必然是为了找到高薪的工作，下面这些面试题是来自阿里、腾讯、字节等一线互联网大厂最新的面试资料，并且有阿里大佬给出了权威的解答，刷完这一套面试资料相信大家都能找到满意的工作。  


**（1）Python所有方向的学习路线（新版）**  

这是我花了几天的时间去把Python所有方向的技术点做的整理，形成各个领域的知识点汇总，它的用处就在于，你可以按照上面的知识点去找对应的学习资源，保证自己学得较为全面。

最近我才对这些路线做了一下新的更新，知识体系更全面了。



![在这里插入图片描述](https://img-blog.csdnimg.cn/1f807758e039481fa866130abf71d796.png#pic_center)



**（2）Python学习视频**



包含了Python入门、爬虫、数据分析和web开发的学习视频，总共100多个，虽然没有那么全面，但是对于入门来说是没问题的，学完这些之后，你可以按照我上面的学习路线去网上找其他的知识资源进行进阶。

![在这里插入图片描述](https://img-blog.csdnimg.cn/d66e3ad5592f4cdcb197de0dc0438ec5.png#pic_center)



**（3）100多个练手项目**

我们在看视频学习的时候，不能光动眼动脑不动手，比较科学的学习方法是在理解之后运用它们，这时候练手项目就很适合了，只是里面的项目比较多，水平也是参差不齐，大家可以挑自己能做的项目去练练。

![在这里插入图片描述](https://img-blog.csdnimg.cn/f5aeb4050ab547cf90b1a028d1aacb1d.png#pic_center)




**网上学习资料一大堆，但如果学到的知识不成体系，遇到问题时只是浅尝辄止，不再深入研究，那么很难做到真正的技术提升。**

**需要这份系统化的资料的朋友，可以添加V获取：vip1024c （备注python）**
![img](https://img-blog.csdnimg.cn/img_convert/ed6c4ee72595a541b3d374ce202f8b19.png)

**一个人可以走的很快，但一群人才能走的更远！不论你是正从事IT行业的老鸟或是对IT行业感兴趣的新人，都欢迎加入我们的的圈子（技术交流、学习资源、职场吐槽、大厂内推、面试辅导），让我们一起学习成长！**
果学到的知识不成体系，遇到问题时只是浅尝辄止，不再深入研究，那么很难做到真正的技术提升。**

**需要这份系统化的资料的朋友，可以添加V获取：vip1024c （备注python）**
[外链图片转存中...(img-UcdLOkVi-1713440193197)]

**一个人可以走的很快，但一群人才能走的更远！不论你是正从事IT行业的老鸟或是对IT行业感兴趣的新人，都欢迎加入我们的的圈子（技术交流、学习资源、职场吐槽、大厂内推、面试辅导），让我们一起学习成长！**

2401_84140112

关注

16
点赞
踩
20

收藏

觉得还不错? 一键收藏
0
评论
一个Python爬虫案例，带你掌握xpath数据解析方法！_python xpath解析url的title

fp = open(‘./58同城二手房.txt’,‘w’,encoding=‘utf-8’)download_path = ‘./简历模板/’+download_name+‘.rar’#全部城市 //div[@class=“bottom”]/ul/div[2]/li。#热门城市 //div[@class=“bottom”]/ul/li。os.mkdir(‘./简历模板’)print(‘爬取成功’)
复制链接

扫一扫