排行榜html源码_Python爬虫爬取B站排行榜数据

本文介绍了如何使用Python爬虫获取B站排行榜的视频标题、综合得分、播放量、评论数、UP主名字等信息。通过requests库获取网页内容,结合BeautifulSoup解析HTML,提取所需数据,并进行整合与保存。
摘要由CSDN通过智能技术生成

目录

  • 写在前文
  • 获取网页数据
  • 提取数据
  • 整合并保存数据
  • 运行结果

点击此处,获取海量Python学习资料!

写在前文

在这篇博客中,我们将会从头开始实现完整的python简单爬虫项目。爬虫是一门高深的学问,这里说的简单爬虫是指获取的数据为静态网页数据,选择B站也是因为作者本身也是老二刺猿了,同时B站没有严格的反爬虫措施,适合新手的爬虫练手。由于本人第一次写博客,在编写的过程中难免会出现错误,如有发现错误或者不合理之处,欢迎到评论区留言指正~

获取网页数据

我们要爬取的内容是B站上的热门视频排行榜(全站版)

090819ef680a8e95326517b8392fd0e9.png

首先我们获取网页内容,为此需要构造网页网址url和请求头heqders。由于我使用的是谷歌浏览器,不同浏览器之间的使用方法可能会有些不同,这里以谷歌浏览器为例。
首先按F12打开控制台,然后依次点击Network、Doc,之后刷新页面,就会出现如下面图展示的内容:

54fe9eb3c2479724717e13ef169dc753.png


从内容中可以看到,网页的url为:

‘https://www.bilibili.com/ranking?spm_id_from=333.851.b_7072696d61727950616765546162.3’

接着下拉进度条,最后有一个user-agent,这便是headers需要的参数了。

user-agent: Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/80.0.3987.116 Safari/537.36

在得到了url和headers后,便可以获取网页内容了,本文使用python的requests模块进行爬虫。代码如下:

import requests
url =  r'https://www.bilibili.com/ranking?spm_id_from=333.851.b_7072696d61727950616765546162.3'
headers = {'user-agent': 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/80.0.3987.116 Safari/537.36'}
data = []
response = requests.get(url,headers=headers)
if response.status_code == 200:
	data = response.content.decode('utf-8') 
else:
    print('网页解析失败')

提取数据

在前面的步骤中,我们利用requests库的get函数成功获取网页数据&

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值