一个简单的爬虫实例

16 篇文章 145 订阅 ¥9.90 ¥99.00
本文介绍了使用Python进行简单的爬虫实践,以豆瓣音乐为例,通过requests和lxml库解析XPath,爬取了页面上的特定数据,包括艺术家、专辑和标签的链接。在解析过程中,作者发现爬取到的数据显示有未在原始网页上找到的内容,对此感到疑惑。
摘要由CSDN通过智能技术生成

貌似学习python就绕不过爬虫,今天看了很多资料,各式各样的爬虫,各种尝试,最后还是只能搞定入门级的,嗯,一步步来吧……

 

import requests
from lxml import html
url='https://music.douban.com/' #需要爬的网址
page=requests.Session().get(url) 
tree=html.fromstring(page.text) 
result=tree.xpath('//tr//a/text()') #需要获取的数据
result1=tree.xpath('//tr//a/@href')
result2=tree.xpath('//tr[last()]//a/@href')
print(result)
print(result1)
print(result2)


我们爬取一下豆瓣音乐专区,其中url便是我们要爬取的网址,而tree.xpath()中的内容便是该网址中我们要获取的数据,显而易见,该程序爬取了三部分内容,//tr//a/text()便是需要抓取内容的路径,意思是所有标签下的tr标签的所有a标签的文本内容,是不是有点绕口,其实这就是一个相对路径,注意一个‘/’和两个‘/’的区别,可以分别理解成绝对路径和“所有”~~

 

第二个爬取的内容为a标签的href属性值,第三个为最后一个tr标签下的所有a标签的href属性值。

看结果吧:

  • 18
    点赞
  • 67
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 11
    评论
评论 11
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

beyond_LH

您的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值