0开始学py爬虫(学习笔记)(Scrapy框架)(豆瓣top250)

在这里插入图片描述

流程和爬职友的一样,这里只有top250的爬虫

这里的第2页,直接在start_urls的位置循环出来

# 运用scrapy的知识,爬取豆瓣图书TOP250前2页的书籍(50本)的短评数据(包括书名、评论ID、短评内容),并存储成Excel。
#
import scrapy
import bs4
from ..items import SdoubanItem

class Sdouban(scrapy.Spider):
    name="sdouban"
    allowed_domins=['https://book.douban.com']
    start_urls=[]
    for x in range(0,100,25):
        start_urls.append('https://book.douban.com/top250?start='+str(x))

    def parse(self,response):
        bs=bs4.BeautifulSoup(response.text,'html.parser')
        data_list=bs.find_all('tr',class_='item')
        for data in data_list:
            real_url=data.find("div",class_='pl2').find('a')['href']+'/blockquotes'
            yield scrapy.Request(real_url,callback=self.parse_job)
    
    def parse_job(self,response):
        bs=bs4.BeautifulSoup(response.text,'html.parser')
        bookname=bs.find(id='content').find('h1').text
        item=SdoubanItem()
        c_list=bs.find(class_="blockquote-list score bottom-line").find_all('figure')
        for data in c_list:
            item['bookname']=bookname
            item['comment']=data.text
            item['commentdetail']=data.find('a')['href']
            yield item

        

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值