python爬虫

本文记录了一次使用Python爬虫抓取豆瓣Top250图书信息的过程,包括书名、评分等。通过分析HTML结构,确定XPath,解决了浏览器复制的XPath不可靠问题。采用循环遍历所有页面,提取每本书的数据,并分享了在处理XPath、数据匹配和字符串清理时的技巧。
摘要由CSDN通过智能技术生成

记一次学python爬虫经历

爬豆瓣top250图书信息(包括书名,评分,热评)

首先,我需要用到lxml和requests 这两个库来抓取或下载所需元素

from lxml import etree
import requests
#找到目标网页,审查需要抓取的元素
url='https://book.douban.com/top250'
data=requests.get(url).text
s=etree.HTML(data)
file=s.xpath('//*[@id="content"]/div/div[1]/div/table[1]/tbody/tr/td[2]/div[1]/a/@title')
print(file)

!!!不要忘了在复制下来的xpath地址后加 @title

这里出现一个很奇怪的问题,跟着步骤走却出现了不一样的结果。(怎么是空的?)


去网上一问才知道,浏览器复制的 xpath 信息并不是完全可靠的,浏览器经常会自己在里面增加多余的 tbody 标签,需要手动把这些标签删掉

删掉tbody后,

file=s.xpath('//*[@id="content"]/div/div[1]/div/table[1]/tr/td[2]/div[1]/a/@title')

总算是出现了


接下来的几页可以看出有明显规律和相同的地方:

//*[@id="content"]/div/div[1]/div/table[1]/tbody/tr/td[2]/div[1]/a
//*[@id="content"]/div/div[1]/div/table[2]/tbody/tr/td[2]/div[1]/a
//*[@id="content"]/div/div[1]/div/table[3]/tbody/tr/td[2]/div[1]/a
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值