bxlx视频弹幕信息采集抓取软件使用教程

DM爬取器教程文档

本教程记录于2023年4月,仅适用于当前bxlx各类视频弹幕的爬取和下载,如后期bxlx更改相关网络接口或技术,本软件也会随之更新升级。

本教程分为按照当天最大爬取量爬取和按照日期精确爬取,其中按照当天最大爬取量爬取需要用到视频网页中的BV值或cid值(爬取时使用其中任意一个即可),而按照日期精确爬取需要用到网页中的'user-agent'值和'cookie'值,本教程不会向您解释相关的名词定义,需要了解的可以去百度自行搜索相关解释。本教程只向您展示如何查找到此类值的方法并在软件中使用

软件介绍

软件名称:DM爬取器

软件版本:1.0DM弹幕基础版

(仅适用于window 32/64位电脑系统)

软件功能:

1、bxlx所有视频的弹幕爬取和下载。

2、按当天最大爬取量爬取和按日期精确爬取功能。

3、是否过滤相同弹幕功能。

4、自动分词/统计词频并下载功能。

5、自定义需要过滤的无意义词组功能。

软件功能介绍

  • 软件安装

1、软件通过网盘链接或压缩包的方式发送至客户,客户可进入网盘链接自行下载软件安装压缩包。

2、软件安装压缩包下载至电脑后,保存在D盘或者E盘中(建议非系统C盘),然后进行解压即可。

3、双击DM.exe应用程序即可运行软件,也可以点击鼠标右键选择创建桌面快捷方式再运行。

二、软件功能使用介绍

1、bxlx网站所有视频的弹幕爬取和下载。

2、按当天最大爬取量爬取功能:

2.1)由于bxlx限制每个视频每天的弹幕展示和每分钟访问量,所以我们用这个功能,每个视频最多能爬取到bxlx限制最大数弹幕。本功能只爬取弹幕内容,不爬取弹幕其他信息。如需弹幕其他信息,可使用后面介绍的按日期精确爬取功能。)

2.2)首先打开DM爬取器软件界面,我们看到这个功能只需要填入需要爬取的视频对应的BV值或者cid值,再点击下面的按钮《开始爬取》即可,非常简单。

2.3)视频BV值的查找方法

首先我们打开bxlx网站:

  

我们在其网站首页随便点选一个视频,网址链接中基本都是有BV值的,比如示例中的网址链接:

‘https://www.bxlx.com/video/BV1vM41147oT/?spm_id_from=333.1007.tianma.1-2-2.click’,其中的’BV12a4y1V7HS’(这串字母+数字)就是我们需要爬取视频的BV值。

然后,我们直接复制后粘贴入软件中对应的输入框中即可《开始爬取》,是否过滤相同弹幕根据自己需求选择是/否即可。

2.4)视频cid值的查找方法

在bxlx网站中,有些视频的网址链接是没有显示BV值的,比如电影、电视剧、番剧等视频,这个时候我们就需要找到这个视频的cid值粘贴入软件对应输入框后再进行爬取。本示例仅以电视剧举例,其他同理。

2.4.1)首先,我们在官方网站首页点选上方的电视剧选项,并随便打开一部电视剧,示例如下:

(图片示例已被屏蔽)

我们看到,示例视频链接显示是:‘https://www.bxlx.com/bangumi/play/ep737626?from_spmid=666.8.recommend.2’随机点选一部电视剧后,出现的网址连接中并没有视频的BV值,如下图所示:(图片示例已被屏蔽)

这个时候,我们就需要找到这个视频的cid值才能爬取,cid值查找方式如下:

首先,在待爬取的本集电视剧视频页面中,快捷键直接按键盘上的F12(或者在此页面上点击鼠标右键,选择弹框底部的‘检查’选项),即可弹出浏览器开发者界面。如果您的开发者界面显示的如下图,根据提示按住键盘上的(Ctrl+R)即可刷新页面(也可以直接按一下快捷键F5刷新页面)。

然后,选择如下图中的‘网络’选项(英文是’Network’选项)

再如上图,在左上方的输入框中输入小写字母cid,下方即可自动弹出很多选项,我们随便点击一个即可,示例选择了第一个选项,点击后出现右侧的一行选项,我们点击‘负载’选项(英文是‘Payload‘选项)即可看到该视频的cid值了(示例视频cid值是:1110464398)。

最后将该cid值的一串数字复制后粘贴入biliDM爬取器软件中对应的输入框中即可开始爬取弹幕。

最后,待视频弹幕自动爬取完毕,点击下方的《保存爬取内容按钮》即可保存在自定义的电脑文件夹中。

3、按历史日期精确爬取功能:

此功能需要用到的视频BV值或者cid值查找方式可参照上述方式获取。另外,精确爬取功能涉及反爬虫技术,还需要用到网页的'user-agent'值和‘cookie’值,以免被bxlx网站服务器屏蔽。这两个值的获取也是非常简单的。

3.1)'user-agent'值和‘cookie’值的查找方式

首先,我们按照上述方式打开开发者界面,如下图,在界面左侧出现的很多选项中几乎都包含着'user-agent'值和‘cookie’值的信息(可以是最开始刷新后的界面,也可以是上述查找cid值时打开的‘负载’界面)。

  

示例中,随便点选了一个’hearbeat’文件,然后右侧选择‘标头’选项(英文是’Headers’选项),进入‘标头’选项界面后,我们下滑鼠标至‘请求标头’项,可以直接找到cookie值(cookie:冒号后的所有数据都是cookie值,如图中蓝框标注所示,直接复制后粘贴入软件对应的cookie值输入框中即可)。

'user-agent'一般在鼠标下滑至最后一行即可看到(user-agent:冒号后的所有数据都是user-agent值,如图中最后一行蓝框标注所示,直接复制后粘贴入软件对应的user-agent值输入框中即可)。

4、日期输入格式:

至于弹幕日期的格式,一定要按照图中所示格式,即年-月-日。如想要爬取某视频2023年4月1日至2023年4月5日的弹幕信息,那就可以直接输入弹幕开始日期:2023-04-01,弹幕结束日期:2023-04-05即可。如果只想要爬取某一日(如2023年4月1日)的弹幕信息,那弹幕开始日期和弹幕结束日期都填写2023-04-01即可。

5、自动分词,统计词频功能:

5.1)首先,不管是爬取方式一还是方式二,一定确保将爬取的弹幕内容保存成txt文本后,再点击《自动分词》按钮即可成功分词并统计词频。如需下载,自动分词成功并在软件界面展示词频数据后点击《保存分词数据》按钮即可。

6、精确保存功能:

    本功能只适用按历史日期精确爬取弹幕内容的存储,点击《精确保存》按钮后,存储的弹幕信息除了弹幕内容外,还包含弹幕日期、弹幕id、发送id、发送时间、字号、颜色,如下图所示:

7、自定义过滤无意义词组功能:

在解压后的压缩包文件中,有份stopwords.txt文本,如果执行自动分词时,有不想要的词组需要过滤掉,可以将弹幕txt文本保存在电脑中后,直接在此stopwords.txt文本中批量添加需要过滤的字词,然后保存即可(按照原格式,每行添加一个过滤字词),然后再次点击软件中《自动分词》按钮,即可重新分词。

stopwords.txt文本中原本自带的字词也可以根据自己的需求增、删、改。

8、额外功能:其他文本文案执行自动分词并统计词频功能。

由于本软件自带的自动分词功能是针对bxlx弹幕分词的,所以对爬取后的弹幕进行分词比较便捷。但是有些客户有其他的非弹幕文案需要自动分词并统计词频,该如何操作呢?

首先,需要在bxlx网随便爬取一个视频弹幕(建议选择一个弹幕较少的视频进行操作,可以节省爬取时间),并保存其弹幕txt文本在电脑上。

然后,将此弹幕txt文本中的内容删除后,将需要自动分词的其他文案直接复制进此txt文本中,再在软件中执行自动分词即可。

三、关于杀毒软件报警

目前还未遇到杀毒软件报警反馈!但是每个人的电脑系统配置不同,为以防万一,下面讲解一下如果使用软件时,遇到360杀毒软件报警怎么办?

解决方案:

1)打开360杀毒软件,点击木马查杀——点击信任区。

2)进入已信任区——点击“添加目录”——选择整个解压后的文件夹,即可将整个文件夹添加入信任区!

3)之后即可成功运行软件!

由于目前还未遇到杀毒软件报警反馈,因此如果使用期间遇到报警情况,可按照上述方法进行操作即可成功运行软件。其他杀毒软件类似,可以参考上述方法。

四、其他问题请直接咨询淘宝店铺客服!

淘宝店铺名称:词云社

软件开发:UMBATO

官方联系邮箱:ciyunshe@163.com

官方店铺:https://ciyunshe.taobao.com

  • 0
    点赞
  • 3
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值