python爬虫与数据可视化报告_Python爬虫以及数据可视化分析！

最新推荐文章于 2024-07-09 14:43:42 发布

weixin_39580749

最新推荐文章于 2024-07-09 14:43:42 发布

阅读量5.7k

点赞数 1

文章标签： python爬虫与数据可视化报告

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_39580749/article/details/112925908

版权

本文介绍了如何使用Python进行B站番剧排行数据的爬取与分析，包括利用requests、BeautifulSoup等库获取网页数据，解析并存储信息，以及使用matplotlib进行数据可视化。通过数据可视化图表展示播放量、评论数、收藏数与综合评分的关系。

摘要由CSDN通过智能技术生成

原标题：Python爬虫以及数据可视化分析！

简单几步，通过Python对B站番剧排行数据进行爬取，并进行可视化分析

源码文件可以参考Github上传的项目：https://github.com/Lemon-Sheep/Py/tree/master

下面，我们开始吧！

PS: 作为Python爬虫初学者，如有不正确的地方，望各路大神不吝赐教[抱拳]

本项目将会对B站番剧排行的数据进行网页信息爬取以及数据可视化分析

首先，准备好相关库

requests、pandas、BeautifulSoup、matplotlib等

因为这是第三方库，所以我们需要额外下载下载有两种方法(以requests为例，其余库的安装方法类似)：

(一)在命令行输入

前提：装了pip( Python 包管理工具,提供了对Python 包的查找、下载、安装、卸载的功能。 )

pip install requests

(二)通过PyCharm下载

第一步：编译器左上角File–>Settings…

第二步：找到Project Interpreter 点击右上角加号按钮，弹出界面上方搜索库名：requests，点击左下角Install ，当提示successfully时，即安装完成。

准备工作做好后，开始项目的实行

一、获取网页内容

def get_html(url):

try:

r = requests.get(url) # 使用get来获取网页数据

r.raise_for_status() # 如果返回参数不为200，抛出异常

r.encoding = r.apparent_encoding # 获取网页编码方式

return r.text # 返回获取的内容

except:

return '错误'

我们来看爬取情况，是否有我们想要的内容：

def main():

url = 'https://www.bilibili.com/v/popular/rank/bangumi' # 网址

html = get_html(url) # 获取返回值

print(html) # 打印if __name__ == '__main__': #入口

main()

爬取结果如下图所示：

成功！

二、信息解析阶段：

第一步，先构建BeautifulSoup实例

soup = BeautifulSoup(html, 'html.parser') # 指定BeautifulSoup的解析器

第二步，初始化要存入信息的容器

# 定义好相关列表准备存储相关信息

TScore = [] # 综合评分

name = [] # 动漫名字

play= [] # 播放量

review = [] # 评论数

favorite= [] # 收藏数

第三步，开始信息整理我们先获取番剧的名字，并将它们先存进列表中

# ******************************************** 动漫名字存储

for tag in soup.find_all('div', class_='info'):

# print(tag)

bf = tag.a.string

name.append(str(bf))

print(name)

此处我们用到了beautifulsoup的find_all()来进行解析。在这里，find_all()的第一个参数是标签名，第二个是标签中的class值(注意下划线哦(class_=‘info’))。

我们在网页界面按下F12，就能看到网页代码，找到相应位置，就能清晰地看见相关信息：

接着，我们用几乎相同的方法来对综合评分、播放量，评论数和收藏数来进行提取

# ******************************************** 播放量存储

for tag in soup.find_all('div', class_='detail'):

# print(tag)

bf = tag.find('span', class_='data-box').get_text()

# 统一单位为‘万’

if '亿' in bf:

num = float(re.search(r'\d(.\d)?', bf).group()) * 10000

# print(num)

bf = num

else:

bf = re.search(r'\d*(\.)?\d', bf).group()

play.append(float(bf))

print(play)

# ******************************************** 评论数存储

for tag in soup.find_all('div', class_='detail'):

# pl = tag.span.next_sibling.next_sibling

pl = tag.find('span', class_='data-box').next_sibling.next_sibling.get_text()

# *********统一单位

if '万' not in pl:

pl = '%.1f'

最低0.47元/天解锁文章

weixin_39580749

关注

1
点赞
踩
26

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。