我的第一个爬虫：request+pyquery爬取B站热门视频标题与播放量

最新推荐文章于 2024-07-07 15:27:50 发布

明日何其多_

最新推荐文章于 2024-07-07 15:27:50 发布

阅读量1.6k

点赞数 3

分类专栏： python爬虫

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qsmx666/article/details/108109003

版权

爬虫步骤

发起请求；
获取响应内容；
解析内容；
保存数据。

具体实现

在写爬虫之前，我们先来看一下要爬取的网页。
在这里插入图片描述
上图是B站热门视频排行榜，需要的数据已经在图中标出，即视频名称和播放量。
接下来是具体的实现。
首先导入包。

import requests
from pyquery import PyQuery as pq
import pandas as pd

然后定义url和headers（包含了浏览器，编码等信息，网站会通过这部分信息来判断我们的身份），用request.get()方法向服务器发出请求，得到response对象。response.text打印出来就是网页的html。

url =

最低0.47元/天解锁文章

明日何其多_

博客等级

码龄8年

94
原创

675
点赞

2525
收藏

125
粉丝

关注

私信

热门文章

分类专栏

展开全部收起

上一篇：: pytorch实现方面级别情感分类经典模型ATAE-LSTM

下一篇：: python爬虫：爬取CSDN文章标题、阅读量和创作时间

最新评论

torch.matmul()用法介绍
guan_chen: 可以认为三维乘二维是二维广播成了三维后再乘？
生成对抗网络（GAN）及pytorch小例子
渡几何时: 应该是这个意思 [code=python] plt.plot(range(1, num_epochs+1),[tensor.detach().numpy().flatten()[0] for tensor in d_loss_point], color='orange', label='discriminator') plt.plot(range(1, num_epochs+1),[tensor.detach().numpy().flatten()[0] for tensor in g_loss_point], color='blue', label='generator') [/code]
记一道动态规划算法题：0-1背包之两个背包问题
六艺和尚: 博主写的非常好，但是在初始化那里是不是需要将(if i>=weight and j >=weight)那一部分放到三个if的最后呢？不然取不了最大值
pytorch实现方面级别情感分类经典模型ATAE-LSTM
时光旅行者GXJ: 你好，这个问题解决了么，我是小白，我也出现了这个问题
生成对抗网络（GAN）及pytorch小例子
m0_71341081: 只能说厉害，如果有时间的话，恳请大佬讲解一下为什么

最新文章

目录

展开全部

收起

评论 1

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。