scrapy css selector 抓取学习

最新推荐文章于 2024-08-23 16:53:34 发布

weixin_43271514

最新推荐文章于 2024-08-23 16:53:34 发布

阅读量111

点赞数

分类专栏：爬虫文章标签： python css

本文链接：https://blog.csdn.net/weixin_43271514/article/details/104863701

版权

爬虫专栏收录该内容

1 篇文章 0 订阅

订阅专栏

本文介绍了如何使用Scrapy框架结合CSS选择器抓取B站热门推荐中的50部电影信息。首先通过`scrapy startproject`创建项目，然后利用`scrapy genspider`定义爬虫及目标URL。为了方便选取CSS选择器，推荐使用selectorgadget插件。最后，运行爬虫并将数据保存为output.json文件。

摘要由CSDN通过智能技术生成

scrapy css selector 抓取学习（一）

抓取页面
抓取B站热门推荐里的电影列表，50部的信息

1.创建项目

scrapy startproject bilibili
步骤 1
切换到项目目录
给爬虫命名和定义抓取的网址
scrapy genspider [爬虫名] [网址]

2.抓取网页信息

推荐一个比较好用的插件： selectorgadget

下面展示一些 内联代码片。

//首先定义要抓取的网址 ：
start_url : https://www.bilibili.com/ranking/cinema/23/0/3/
抓取影片的名字、综合得分、上映时间、播放量、弹幕数、点赞数

// An highlighted block
class VideoinfoSpider(scrapy.Spider):
    name = 'videoinfo'
    allowed_domains = ['bilibili']
    start_urls = ['https://www.bilibili.com/ranking/cinema/23/0/3/']

    def parse(self, response):
        title = response.css('.title::text').extract()
        score = response.css('.pts div::text').extract()
        time = response.css('.pgc-info::text').extract()
        play = response.css('.data-box:nth-child(1)::text').extract()
        comment = response.css('.data-box:nth-child(2)::text').extract()
        like = response.css('.data-box:nth-child(3)::text').extract()
        
        for item in zip(title, score, time, play, comment, like):
            yield{
                "title" : item[0],
                "score" : item[1],
                "time" : item[2],
                "play" : item[3],
                "comment" : item[4],
                "like" : item[5]
            }
            print(item)

运行：
scrapy crawl videoinfo -o output.json
输出结果

weixin_43271514

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
scrapy css selector 抓取学习

scrapy css selector 抓取学习（一）抓取B站热门推荐里的电影列表，50部的信息1.创建项目scrapy startproject bilibili切换到项目目录给爬虫命名和定义抓取的网址scrapy genspider [爬虫名] [网址]2.抓取网页信息推荐一个比较好用的插件： selectorgadget下面展示一些内联代码片。//首先定义要抓...
复制链接

扫一扫

专栏目录