一个简单的爬虫实例

最新推荐文章于 2024-07-17 23:50:36 发布

beyond_LH

最新推荐文章于 2024-07-17 23:50:36 发布

阅读量3.9w

点赞数 18

分类专栏： Python爬虫文章标签：爬虫豆瓣 request lxml xpath

本文链接：https://blog.csdn.net/beyond9305/article/details/79692198

版权

Python爬虫专栏收录该内容

16 篇文章 145 订阅 ¥9.90 ¥99.00

订阅专栏

本文介绍了使用Python进行简单的爬虫实践，以豆瓣音乐为例，通过requests和lxml库解析XPath，爬取了页面上的特定数据，包括艺术家、专辑和标签的链接。在解析过程中，作者发现爬取到的数据显示有未在原始网页上找到的内容，对此感到疑惑。

摘要由CSDN通过智能技术生成

貌似学习python就绕不过爬虫，今天看了很多资料，各式各样的爬虫，各种尝试，最后还是只能搞定入门级的，嗯，一步步来吧……

import requests
from lxml import html
url='https://music.douban.com/' #需要爬的网址
page=requests.Session().get(url) 
tree=html.fromstring(page.text) 
result=tree.xpath('//tr//a/text()') #需要获取的数据
result1=tree.xpath('//tr//a/@href')
result2=tree.xpath('//tr[last()]//a/@href')
print(result)
print(result1)
print(result2)

我们爬取一下豆瓣音乐专区，其中url便是我们要爬取的网址，而tree.xpath()中的内容便是该网址中我们要获取的数据，显而易见，该程序爬取了三部分内容，//tr//a/text()便是需要抓取内容的路径，意思是所有标签下的tr标签的所有a标签的文本内容，是不是有点绕口，其实这就是一个相对路径，注意一个‘/’和两个‘/’的区别，可以分别理解成绝对路径和“所有”~~

第二个爬取的内容为a标签的href属性值，第三个为最后一个tr标签下的所有a标签的href属性值。

看结果吧：

了解本专栏

beyond_LH

关注

18
点赞
踩
67

收藏

觉得还不错? 一键收藏
打赏
11
评论
一个简单的爬虫实例

貌似学习python就绕不过爬虫，今天看了很多资料，各式各样的爬虫，各种尝试，最后还是只能搞定入门级的，嗯，一步步来吧……import requestsfrom lxml import htmlurl='https://music.douban.com/' #需要爬的网址page=requests.Session().get(url) tree=html.fromstring(...
复制链接

扫一扫