Python爬虫之豆瓣TOP250爬取

最新推荐文章于 2024-05-13 15:07:13 发布

あ许�babyざ

最新推荐文章于 2024-05-13 15:07:13 发布

阅读量3.5k

点赞数 4

文章标签： python xpath 正则表达式

本文链接：https://blog.csdn.net/fuyao2209/article/details/105433426

版权

1.分析网页

我们需要从一个网页中爬取东西时，如果对网页中有什么东西、网页如何构成都不清楚，我们是很难进行爬取的，所以这一步是为了后面爬取的方便实施。

在这里，我要爬取的是豆瓣Top250上的东西。首先，我们得进入该网页,查看它的网页结构。点击【下一页】，查看网页的URL(也就是它的链接），多换几页之后会发现有如下图所示规律：
在这里插入图片可知描述

首先我们需要安装jupyter，使用Win+R,弹出一个框，输入cmd之后弹出一个黑框（控制台），然后使用pip install jupyter命令安装jupyter，安装成功后在电脑的G盘中执行以下步骤即可打开编辑环境：

利用我们发现的规律，使用for循环，生成链接，然后对生成的链接随便找几个来测试是否和原网页链接相同

for page in range(0,226,25):
    url= 'https://movie.douban.com/top250?start=%s&filter='%page

在这里插入图片描述

接下来就是向服务器发出请求了，我们先选择第一个链接来进行测试，完成本页所有内容的获取，然后再获取其他所有页面的信息

这里需要用到requests这个，没有安装的话需要安装这个包，安装步骤如下：#pip安装 pip install requests-------->win+r,运行--------->cmd,回车-------->输入pip install requests

在网页中点击右键，打开检查，选择Network，All，刷新网页，选择第一个文件，双击，选择headers
在这里插入图片描述
设置的浏览器代理必须为字典型，如：

headers={
    'User-Agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/78.0.3904.87 Safari/537.36'
}

请求源代码，向服务器发出请求,200代表成功，使用get（）获取
在这里插入图片描述
test_url 是一个链接，第二个 headers 是用来做浏览器代理的内容

response=requests.get(url=test_url,headers=headers).text

关注