爬bilibili网站视频

#深入解析:使用Python爬取Bilibili视频

## 引言

Bilibili,作为中国领先的年轻人文化社区,拥有海量的视频资源。对于想要下载Bilibili视频的用户来说,手动下载不仅费时费力,而且效率低下。本文将介绍如何使用Python编写一个脚本,自动化地爬取Bilibili上的视频,并将其保存到本地。

## 环境准备

在开始之前,请确保你已经安装了以下Python库:

- requests:用于发送HTTP请求。
- json:用于解析JSON数据。
- re:用于正则表达式匹配。
- os:用于操作系统功能,如文件路径操作。
- subprocess:用于执行外部命令,如调用ffmpeg。
- sys:用于访问与Python解释器密切相关的变量和函数。

可以通过以下命令安装所需的库:

```bash
pip install requests
```

## 代码解析

### 1. 导入必要的库

```python
import requests
import json
import pprint
import re
import os
import subprocess
import sys
```

### 2. 获取URL响应体

定义一个函数`getResponse`,用于发送GET请求并获取响应体。

```python
def getResponse(url):
    headers = {
        'referer': 'https://www.bilibili.com/',
        'User-Agent': 'Mozilla/5.0 ...'
    }
    response = requests.get(url=url, headers=headers)
    return response
```

### 3. 解析响应体

定义函数`parseResponse`,用于解析视频页面的响应体,并提取视频和音频的URL。

```python
def parseResponse(url):
    # ... 省略部分代码 ...
    jsonData = json.loads(html_data)
    videoTitle = re.findall('<title ...', response.text)[0]
    audioUrl = jsonData['data']['dash']['audio'][0]['baseUrl']
    videoUrl = jsonData['data']['dash']['video'][0]['baseUrl']
    videoInfo = {
        'videoTitle': videoTitle,
        'audioUrl': audioUrl,
        'videoUrl': videoUrl,
    }
    return videoInfo
```

### 4. 保存视频和音频

定义函数`saveMedia`,用于将下载的媒体内容保存到本地文件。

```python
def saveMedia(fileName, content, mediaType):
    os.makedirs('D:\\bilibili', exist_ok=True)
    with open(f'D:\\bilibili\\{fileName}.{mediaType}', 'wb') as f:
        f.write(content)
```

### 5. 合并音频和视频

定义函数`AvMerge`,使用ffmpeg合并音频和视频文件。

```python
def AvMerge(Mp3Name, Mp4Name, savePath):
    # 使用subprocess调用ffmpeg合并音频和视频
    subprocess.run(['ffmpeg', '-i', Mp4Name, '-i', Mp3Name, '-c:v', 'copy', ...])
```

### 6. 主函数

`main`函数是脚本的入口点,负责调用上述函数完成整个爬取和保存流程。

```python
def main():
    url = input("请输入B站视频url地址:")
    videoInfo = parseResponse(url)
    # ... 省略部分代码 ...
    AvMerge(Mp3Name, Mp4Name, savePath)
```

## 结语

通过上述脚本,我们可以实现自动化下载Bilibili视频的功能。这不仅大大提升了下载效率,也让我们对Python网络编程有了更深入的理解。请注意,爬虫的使用应遵守网站的爬虫政策和法律法规,合理使用爬虫技术。

## 代码结果

## 注意事项

- 确保在合法合规的前提下使用爬虫技术。
- 尊重视频作者的版权,不要用于商业用途。
- 考虑到Bilibili网站的反爬措施,可能需要更新请求头或使用代理。

## 附录

- **ffmpeg下载**: [FFmpeg官网](https://ffmpeg.org/download.html)
- **Python库文档**: [Requests](https://docs.python-requests.org/), [json](https://docs.python.org/3/library/json.html)

---

本文提供了一个基于Python的Bilibili视频爬取方案,希望能够帮助到有需要的朋友。如果你有任何问题或建议,请随时与我联系。

完整代码:

import requests
import json
import pprint
import re
import os
import subprocess
import sys

"""获取url响应体"""
def getResponse(url):
    # 设置请求头
    headers = {
        'referer': 'https://www.bilibili.com/',
        'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/113.0.0.0 Safari/537.36'
    }
    # 发起get请求
    response = requests.get(url=url, headers=headers)
    return response

"""解析响应体"""
def parseResponse(url):
    # 获取url响应体
    response = getResponse(url)
    # 用正则表达式取出返回的视频数据
    html_data = re.findall('<script>window.__playinfo__=(.*?)</script>', response.text)[0]
    # 解析成json数据
    jsonData = json.loads(html_data)
    # 获取视频标题
    videoTitle = re.findall('<title data-vue-meta="true">(.*?)</title>', response.text)[0]
    # 获取音频
    audioUrl = jsonData['data']['dash']['audio'][0]['baseUrl']
    # 获取视频
    videoUrl = jsonData['data']['dash']['video'][0]['baseUrl']
    # 封装视频信息
    videoInfo = {
        'videoTitle': videoTitle,
        'audioUrl': audioUrl,
        'videoUrl': videoUrl,
    }
    print("获取Response信息成功!")
    return videoInfo

"""保存视频和音频"""
def saveMedia(fileName, content, mediaType):
    # 创建目录(如果不存在)
    os.makedirs('D:\\bilibili', exist_ok=True)
    # 写入文件
    with open(f'D:\\bilibili\\{fileName}.{mediaType}', mode='wb') as f:
        f.write(content)
    print(f"保存{mediaType}成功!")

def AvMerge(Mp3Name, Mp4Name, savePath):
    print("开始合并音频和视频.........")
    print(f"音频文件: {Mp3Name}")
    print(f"视频文件: {Mp4Name}")
    print(f"合并后文件保存路径: {savePath}")

    # 使用subprocess来调用ffmpeg,并重定向输出
    with open(os.devnull, 'w') as devnull:
        result = subprocess.run(
            ['ffmpeg', '-i', Mp4Name, '-i', Mp3Name, '-c:v', 'copy', '-c:a', 'aac', '-strict', 'experimental', savePath],
            stdout=devnull,
            stderr=devnull
        )

    print("合并成功!")
    os.remove(Mp3Name)
    os.remove(Mp4Name)

def main():
    url = input("请输入B站视频url地址:")
    videoInfo = parseResponse(url)
    # 获取视频标题
    fileName = videoInfo['videoTitle']
    # 下载并保存音频
    audioContent = getResponse(videoInfo['audioUrl']).content
    saveMedia(fileName, audioContent, 'mp3')
    # 下载并保存视频
    videoContent = getResponse(videoInfo['videoUrl']).content
    saveMedia(fileName, videoContent, 'mp4')

    Mp3Name = f'D:\\bilibili\\{fileName}.mp3'
    Mp4Name = f'D:\\bilibili\\{fileName}.mp4'
    savePath = f'D:\\bilibili\\merge_{fileName}.mp4'
    AvMerge(Mp3Name, Mp4Name, savePath)


if __name__ == '__main__':
    main()


 

  • 3
    点赞
  • 8
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论
在B站下载指定视频的过程中,可以使用爬虫技术来实现。首先,你需要准备好爬虫工具和相关的编程环境。接下来,你可以使用Python编写爬虫代码来实现下载功能。 一种常见的方法是通过解析B站视频页面的源代码来获取视频的URL链接。你可以使用正则表达式或者BeautifulSoup等库来提取视频的URL链接。在提取URL链接之前,你需要找到视频文件所在的位置,一般是在video标签中。 在提取到视频的URL链接之后,你可以使用Python的下载库来下载视频文件。固定的文件格式可能是MP4或者其他一些常见的视频格式。你可以使用requests库来发送GET请求并下载视频文件。 但需要注意的是,B站对于视频的下载有一些防护措施,比如防盗链机制。这意味着你在下载视频时可能需要设置Referer头信息,以绕过防盗链。你可以使用requests库来添加Referer头信息并发送请求。 总结起来,通过编写爬虫代码,你可以解析B站视频页面源代码,提取视频的URL链接,并使用下载库下载视频文件,同时需要注意处理防盗链机制。这样就能够实现下载B站指定视频的功能。<span class="em">1</span><span class="em">2</span><span class="em">3</span> #### 引用[.reference_title] - *1* *2* *3* [送书 | 教你下载B站指定视频](https://blog.csdn.net/tongtongjing1765/article/details/120558933)[target="_blank" data-report-click={"spm":"1018.2226.3001.9630","extra":{"utm_source":"vip_chatgpt_common_search_pc_result","utm_medium":"distribute.pc_search_result.none-task-cask-2~all~insert_cask~default-1-null.142^v93^chatsearchT3_2"}}] [.reference_item style="max-width: 100%"] [ .reference_list ]
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

LucianaiB

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值