Bilibili Spider 经验总结

前些天一朋友让我帮忙写个脚本爬一下Bilibili的数据,说是大数据的课程需要做一个小项目,自己打算用bilibili的评论弹幕数据做一下分析。其实写爬虫这个我之前也不是很了解,不过想想B站的数据应该是很多人都感兴趣的,各种数据接口什么的估计早就有人找过,再加上朋友说这事也不是很紧急,我就答应下来了,就当是复习复习python,了解一下写爬虫的基本方法,说不定以后就用得上。

国庆第二天,上海这边的天气不太好,看起来总像是就要下大雨,所以干脆就待在家里了,反正闲着也是闲着就想到之前这个脚本的事,乘着这回儿没事干脆就把他写了。

需求分析

按照之前朋友给我的要求,他需要主要信息是视频的评论和弹幕数据。不过想一想做数据分析也得有个边界啊,B站这么多视频到底需要哪些视频的数据呢?最好就是能够提供一个关键词搜索这个关键词相关的视频,同时也能够根据需要取合适数量的数据。获取数据后将数据存储到文件中

以上,这个脚本需要的就是接受一个关键词参数和视频数量参数。根据这个关键词所有给定数量的视频,将视频的基本信息和评论弹幕信息输出到文件中。

数据接口

首先我们需要从关键字找到视频地址,显然这需要视频搜索接口。这个很简单直接打开Bilibili,尝试搜索一下,浏览器上的URL就是搜索接口。如下:
search.bilibili.com/all?keyword=

其他的接口可以自己分析视频页面或者直接google一下就可以找到。比如
https://zhuanlan.z

  • 1
    点赞
  • 3
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值