0开始学py爬虫（学习笔记)（Scrapy框架）(豆瓣top250)

最新推荐文章于 2022-01-27 22:54:34 发布

weixin_39238520

最新推荐文章于 2022-01-27 22:54:34 发布

阅读量372

点赞数

分类专栏：学习专用仅供参考笔记

本文链接：https://blog.csdn.net/weixin_39238520/article/details/103615788

版权

学习专用仅供参考同时被 2 个专栏收录

32 篇文章 0 订阅

订阅专栏

笔记

21 篇文章 0 订阅

订阅专栏

在这里插入图片描述

流程和爬职友的一样，这里只有top250的爬虫

这里的第2页，直接在start_urls的位置循环出来

# 运用scrapy的知识，爬取豆瓣图书TOP250前2页的书籍（50本）的短评数据（包括书名、评论ID、短评内容），并存储成Excel。
#
import scrapy
import bs4
from ..items import SdoubanItem

class Sdouban(scrapy.Spider):
    name="sdouban"
    allowed_domins=['https://book.douban.com']
    start_urls=[]
    for x in range(0,100,25):
        start_urls.append('https://book.douban.com/top250?start='+str(x))

    def parse(self,response):
        bs=bs4.BeautifulSoup(response.text,'html.parser')
        data_list=bs.find_all('tr',class_='item')
        for data in data_list:
            real_url=data.find("div",class_='pl2').find('a')['href']+'/blockquotes'
            yield scrapy.Request(real_url,callback=self.parse_job)
    
    def parse_job(self,response):
        bs=bs4.BeautifulSoup(response.text,'html.parser')
        bookname=bs.find(id='content').find('h1').text
        item=SdoubanItem()
        c_list=bs.find(class_="blockquote-list score bottom-line").find_all('figure')
        for data in c_list:
            item['bookname']=bookname
            item['comment']=data.text
            item['commentdetail']=data.find('a')['href']
            yield item

weixin_39238520

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
0开始学py爬虫（学习笔记)（Scrapy框架）(豆瓣top250)

流程和爬职友的一样，这里只有top250的爬虫这里的第2页，直接在start_urls的位置循环出来# 运用scrapy的知识，爬取豆瓣图书TOP250前2页的书籍（50本）的短评数据（包括书名、评论ID、短评内容），并存储成Excel。#import scrapyimport bs4from ..items import SdoubanItemclass Sdouban(scr...
复制链接

扫一扫