python爬取哔哩哔哩网页弹幕内容,并将爬取的内容以五角星的形式显示出来

最新推荐文章于 2024-04-26 01:45:18 发布

嗨学编程

最新推荐文章于 2024-04-26 01:45:18 发布

阅读量1.3k

点赞数 1

分类专栏： Python爬虫文章标签： python

原文链接：https://www.cnblogs.com/xiaodan1040/p/11755274.html

版权

Python爬虫专栏收录该内容

677 篇文章 326 订阅

订阅专栏

在这里插入图片描述
思路：

向哔哩哔哩网站发送请求
请求成功后,解析爬取的弹幕内容保存到一个文件中
读取文件并分析弹幕内容中词组或文字出现的频率
将这些词组或文字组成五角星图形
组成五角星图形后,以图片的形式输出

使用到的类库,如果没有,需要下载，下载命令：

pip install requests
pip install bs4
pip install pandas
pip install lxml        # 在解析xml文件时，需要使用
pip install jieba
pip install wordcloud
pip install imageio
pip install matplotlib

实现：

import requests
from bs4 import BeautifulSoup
import pandas as  pd
import re
import jieba
from wordcloud import WordCloud
from imageio import imread
import matplotlib.pyplot as plt

'''
python学习交流群：1136201545更多学习资料可以加群获取
'''
# 网页地址，该地址只针对哔哩哔哩弹幕网有效，获取方式查看
url = "http://comment.bilibili.com/124001121.xml"

# 网站访问的用户代理，建议携带，不携带可能无法访问
header = {
    "User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/77.0.3865.120 Safari/537.36"
}

# 向对方服务器发送请求，返回访问状态，
# 返回状态如果是以[2]开头，表示访问成功，[4]开头表示网页不存在，[5]开头网站内部错误
# 访问状态无法直接读取，需通过属性[text]获取
response = requests.get(url,header)

# 获取网页的编码规则，建议通过该方式获取，而不是直接赋值，可能存在设置不对的情况，可能不是中文网页
# response.encoding = "utf-8"
response.encoding = response.apparent_encoding
# print(response.text)

# 获取网页文本内容
data = response.text
'''
--将获取到的弹幕内容处理后存放在txt文件中，并读取出来
--网页获取的弹幕内容是带html标签的，需要将标签和非汉字的内容清除
'''
# 解析文本xml，处理不规范标记并生成剖析树
soup = BeautifulSoup(data,'lxml')  
# print(soup)
# 获取所有<d>标签中的内容，此时是带标签的文本内容
d_list = soup.find_all('d')

# 去掉<d>标签，将文本内容存在在列表dlst
dlst = []
for d in d_list:
    danmu = {}
    danmu['弹幕'] = d.text  # 循环获取所有<d>标签中内容
    dlst.append(danmu)

df = pd.DataFrame(dlst) # 将列表dlst中的内容存放在数据集中，类似于Excel表格
# print(df)

# 创建并打开一个文件
f = open('cl.txt','w',encoding='utf-8')
# 进行文本过滤
for i in df['弹幕'].values: # 遍历数据集中的所有的弹幕内容
    pat = re.compile(r'[一-龥+]')    # 定义过滤规则，只保留中文汉字，该正则表达式几乎包含了所有汉字龥（yu，第四声）
    filter_data = re.findall(pattern=pat,string=i)     # 执行过滤操作
    f.write(''.join(filter_data))     # 将过滤后的弹幕内容写入创建的[cl.txt]文件中
f.close()

'''
--读取弹幕内容所在的文件[cl.txt]
'''
f1 = open('cl.txt','r',encoding='utf-8')
data = f1.read()

'''
--将弹幕内容分割成词组，并组合成五角星的图案
'''
result = " ".join(jieba.lcut(data))

f1.close()
color_mask = imread("五角星.jpg")         # 设置数据组合的图形，最好使用空心的图片
wc = WordCloud(
    font_path="C:\Windows\Fonts\simsun.ttc",        # 数据显示的字体
    width=1000,
    height=800,
    background_color='white',       # 词云的背景色
    mask=color_mask         # 词云组成的图形，默认为二维
)

wc.generate(result)     # 将弹幕内容生成词云
wc.to_file('clanned.png')       # 词云输出文件

'''
--显示弹幕内容组成的图片
'''
plt.imshow(wc)
plt.show()

知识点：

request 向对方服务器发送请求
BeautifulSoup 解析爬取的弹幕内容
pandas 分析弹幕数据
jieba 中文分词器,或称为中文词组切片器
wordcloud 加载弹幕文本,并输出文件(这里使用图片的方式输出)
matplotlib.pyplot 将整理后的弹幕文本以图形的方式输出(这里是以五角星的图片为例)
imread 读取图片

问题:

爬取的弹幕内容被保存在了文件后，后又重新读取，是否可以不存放在文件中，直接使用列表或者其他对象存储，然后再读取？保存在文件和直接读取的优缺点是什么？
弹幕内容中除了汉字，实际上还包含了大量的字母，表情符号，这些内容可以通过什么正则表达式进行筛选，能否同时跟汉字一起筛选出来？
在导包的时候，使用[from scipy.misc import imread]报错，用[from imageio import imread]代替即可。为什么使用scipy.misc中的imread报错？

嗨学编程

关注

1
点赞
踩
10

收藏

觉得还不错? 一键收藏
1
评论
python爬取哔哩哔哩网页弹幕内容,并将爬取的内容以五角星的形式显示出来

思路：向哔哩哔哩网站发送请求请求成功后,解析爬取的弹幕内容保存到一个文件中读取文件并分析弹幕内容中词组或文字出现的频率将这些词组或文字组成五角星图形组成五角星图形后,以图片的形式输出使用到的类库,如果没有,需要下载，下载命令：pip install requestspip install bs4pip install pandaspip install lxml ...
复制链接

扫一扫

专栏目录