从零开始的爬虫生涯（四）：通过API爬取B站弹幕

最新推荐文章于 2024-05-30 22:18:55 发布

fishfuck

最新推荐文章于 2024-05-30 22:18:55 发布

阅读量1.7k

点赞数 2

文章标签： python 爬虫

本文链接：https://blog.csdn.net/fishfuck/article/details/119334717

版权

文章目录

前言
需要爬取的页面展示
思路分析
- 爬虫思路
爬虫代码
爬取结果

前言

这篇文章我们将借助b站的api来爬取B站视频的弹幕，这将是这个系列的第四篇文章。

需要爬取的页面展示

在这里插入图片描述

思路分析

爬虫思路

没什么好分析的，就是调用网上找到的弹幕池接口，和bv号转弹幕池编号的接口。

爬虫代码

1.开发环境

开发环境：win10 python3.6.8
使用工具：pycharm
使用第三方库：requests、os、BeatutifulSoup

2.代码分解

（1）.引入库

import requests
import json
from bs4 import BeautifulSoup
import re

（2）.获取cid（弹幕池编号）

def bvid2cid(bvid):  # 获取视频cid
    url = "https://api.bilibili.com/x/player/pagelist?bvid=" + str(bvid) + "&jsonp=jsonp"
    r = requests.get(url)
    dirt = json.loads(r.text)
    cid = dirt['data'][0]['cid']
    return cid

（3）.获取弹幕

def cid2data(cid):
    url = 'https://api.bilibili.com/x/v1/dm/list.so?oid=' + str(cid)
    r = requests.get(url=url)
    r.encoding = 'utf-8'
    html = BeautifulSoup(r.text, 'html5lib')
    ds = html.find_all('d')
    said = '.*">(.*)</d>.*'
    for d in ds:
        with open(str(cid) + '.txt', 'a', encoding='utf-8') as f:
            f.write(re.findall(said, str(d))[0] + '\n')

3.整体代码

import requests
import json
from bs4 import BeautifulSoup
import re


def bvid2cid(bvid):  # 获取视频cid
    url = "https://api.bilibili.com/x/player/pagelist?bvid=" + str(bvid) + "&jsonp=jsonp"
    r = requests.get(url)
    dirt = json.loads(r.text)
    cid = dirt['data'][0]['cid']
    return cid


def cid2data(cid):
    url = 'https://api.bilibili.com/x/v1/dm/list.so?oid=' + str(cid)
    r = requests.get(url=url)
    r.encoding = 'utf-8'
    html = BeautifulSoup(r.text, 'html5lib')
    ds = html.find_all('d')
    said = '.*">(.*)</d>.*'
    for d in ds:
        with open(str(cid) + '.txt', 'a', encoding='utf-8') as f:
            f.write(re.findall(said, str(d))[0] + '\n')


cid = bvid2cid('BV1gp4y1e7cE')
cid2data(cid)

爬取结果

在这里插入图片描述

在这里插入图片描述
可以看到，这次爬取非常成功

fishfuck

关注

2
点赞
踩
18

收藏

觉得还不错? 一键收藏
1
评论
从零开始的爬虫生涯（四）：通过API爬取B站弹幕

文章目录前言需要爬取的页面展示思路分析1.页面源码分析2.爬虫思路爬虫代码1.开发环境2.代码分解（1）.引入库（2）.获取每张图片的地址（3）.保存图片到指定文件夹3.整体代码爬取结果前言这篇文章我们将借助b站的api来爬取B站视频的弹幕相关文章请看从零开始的爬虫生涯（二）：爬取小姐姐的照片②从零开始的爬虫生涯（三）：爬取小姐姐的照片③需要爬取的页面展示思路分析1.页面源码分析首先我们先查看页面源码发现他的图片url全都放在一个类为entry-content的div块中，那么
复制链接

扫一扫