初级爬虫详细教学

最新推荐文章于 2024-11-14 08:53:59 发布

2401_82910236

最新推荐文章于 2024-11-14 08:53:59 发布

阅读量279

点赞数 4

文章标签： python 爬虫

本文链接：https://blog.csdn.net/2401_82910236/article/details/136619497

版权

本文介绍了如何通过审查元素技术抓取网站图片，包括禁用浏览器缓存、识别User-Agent和请求URL、使用Python的requests库进行GET请求，以及利用正则表达式提取所需信息并保存到本地文件。

摘要由CSDN通过智能技术生成

首先打开一个网站，我以一个图片网为例

右键页面空白处，点击审查元素

然后点击网络，勾上禁用缓存选项，（如果没有，就不勾），然后Ctrl+r刷新页面

左键双击任意一行（如图中鼠标位置所示）

在标头中往下拉，找到user agent，此标头用于模拟浏览器的访问，在get请求中，一般只带这一个标头就够了，复制下来，并在python中以一个字典的形式储存在一个变量里（后面会有完整代码展示）

还是在标头这一栏目里，找到请求URL网址（一般情况是全部复制完，但该网址如果全部复制完的话，是有问题的，全是乱码，无论任何形式都解不出来，因此，只复制前半部分官网网址就够了）复制下来，并在python中以字符串的形式赋予给一个变量，导入requests库，将URL和headers参数分别写入，方法用get（并不是你想用什么方式就用什么方式，常用方式一般是get和post，具体用什么方式，看抓包工具给你什么方式）