python用scrapy爬虫豆瓣_Python爬虫(十三)——Scrapy爬取豆瓣图书-Go语言中文社区...

本篇博客介绍了如何使用Scrapy爬虫框架抓取豆瓣图书Top250页面的书籍信息,包括书籍名称和标签。首先创建项目和Spider,解析网页获取书籍URL,接着在书籍详情页中提取标签信息,最后通过自定义Pipeline将数据保存到文件book.txt中。
摘要由CSDN通过智能技术生成

Python爬虫(十三)——Scrapy爬取豆瓣图书

这次我们爬取豆瓣图书的top250的目录后进入书籍界面爬取界面中的书籍标签。

步骤

建立项目和Spider模板

使用以下命令

scrapy startproject demo

cd demo

scrapy genspider book

编写Spider

我们首先在top250的界面中爬取到每本书籍的url。打开网页观察代码:

经过观察,我们发现书籍的信息在标签tr属性为item的代码块中,而书籍的url则是在标签a中。利用yield将这个请求的结果返回:

def parse(self, response):

soup = BeautifulSoup(response.text, 'html.parser')

for item in soup.find_all('tr', attrs={'class': 'item'}):

for href in item.find_all('a'):

if href.string != None:

url = href.attrs['href']

yield scrapy.Request(url, callback=self.parse_book)

然后打开书籍信息界面的源代码搜索tag找到了书籍标签的所在位置

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值