基于python的哔哩哔哩爬虫系统(爬虫案例)

本文介绍了使用Scrapy和Selenium爬取B站纪录片信息的过程,包括热播榜、厂牌推荐等板块,筛选高分和低分作品,并抓取高分作品的详情,如outline和长评。项目利用自动化技术和持久化存储技术处理动态加载数据和数据存储。
摘要由CSDN通过智能技术生成

爬取的是哔哩哔哩上所有纪录片的信息(名称,评分,描述,链接)、高分纪录片和低分纪录片的信息、以及高分纪录片的outline和点评文章。爬取深度为4,具体功能看下面描述。

一、系统功能描述

待爬种子url=“https://www.bilibili.com/”。

功能描述:通过对给定的url(哔哩哔哩首页网址)发送请求,解析出首页导航栏中“纪录片”所对应的url_2

对url_2发送请求,在url_2对应的网页中,爬取“纪录片热播榜(该网页上的前七个)”“厂牌推荐”“本周精选”“更多推荐”四大板块的纪录片的信息(名字,评分,描述,链接),保存该信息到本地文件中。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值