java爬虫爬取B站弹幕

1 篇文章 0 订阅
1 篇文章 0 订阅
  1. 首先创建一个maven项目,并导入Jsoup包`
    <dependencies>
        <dependency>
            <groupId>org.jsoup</groupId>
            <artifactId>jsoup</artifactId>
            <version>1.11.3</version>
        </dependency>
    </dependencies>
  1. 去B站找到你想要爬弹幕的视频页面
    在这里插入图片描述

右键点击查看网页源代码
按Ctrl + F输入cid 搜索
在这里插入图片描述
找到并复制cid的值
http://comment.bilibili.com/20746041.xml
将你获取的cid替换.com后面的数字,然后这个xml文件就是该视频的所有弹幕

  1. 接下来就是JAVA代码了
public class Demo {
    public static void main(String args[]) throws IOException {
    	//获取整个页面
        Document document = Jsoup.connect("http://comment.bilibili.com/20746041.xml").get();
        //获取所有的d标签   也就是存放弹幕的标签  
        Elements d = document.getElementsByTag("d");
        //获取File
        File file = new File("D://卢本伟.txt");
        if(!file.exists()){
            file.createNewFile();
        }
        FileOutputStream fileOutputStream=new FileOutputStream(file);
        //遍历所有的d标签
        for(Element element: d){
       		//获取每条弹幕换行并添加到txt文件中
            fileOutputStream.write((element.text()+"\r\n").getBytes());
        }
        fileOutputStream.close();
    }
}

是不是很简单
右键运行,然后打开路径对应的文件就像下面这样,就获取到整个视频的弹幕啦

L B W N B

在这里插入图片描述

  • 6
    点赞
  • 8
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值