爬虫——隐藏的url获取教学

最新推荐文章于 2024-03-04 15:26:45 发布

谢小波zz

最新推荐文章于 2024-03-04 15:26:45 发布

阅读量2.2w

点赞数 19

分类专栏： python 爬虫 url获取

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/abc455050954/article/details/97262984

版权

python 同时被 3 个专栏收录

1 篇文章 2 订阅

订阅专栏

1 篇文章 1 订阅

订阅专栏

1 篇文章 1 订阅

订阅专栏

要爬取信息，最关键的是获取一个正确的url，有时候我们在F12看到的请求是不完整的，是掩盖了真实的url后的结果，所以我们一直找不到所需的url，那么如何获取真正的所需url，下面就拿某猪的搜索来做介绍

先打开某猪网站的首页

我们想要爬取旅游的信息，那就要通过搜索各个地点，查看其中的月售

通过月售信息来判断这个景点在一段时间内的热度

那么用爬虫的第一步是什么：

获取url

这里的URL是哪个？

当然是搜索的url，一般搜索的信息都是通过json格式返回，那么我们要找到那个请求是返回json（包含搜索结果）的

F12查看

先清空所有请求，然后点击搜索

可以看到有一堆数据返回，但是有没有看到我们想要的搜索结果呢？

可以点击一个，然后在右边的请求信息中选择response中查看返回结果

然而经过仔细查看，并没有发现有包含了返回结果的请求

啧啧，那么这个请求估计是被隐藏了，看来要启用Fiddler了。

打开Fiddler

cls清空所有请求

回到某猪首页

输入“湛江”，搜索

我看到了在chrome没看到的一个请求

打开，选择json查看

果然，是我们要的搜索结果

好，继续，这个请求返回结果包含了页数说明，但我们可以看到这个请求地址的参数并没有页数（EX：?page= | ?pagenum=）

很简单 ==>

在搜索结果页面拉到最下面

点击第二页（第一页的disable了）

可以看到地址栏的地址直接变了

同时看到Fiddler中，我们之前看到的那个请求地址也多了一个pagenum参数

那么我们知道搜索地址为host + url，选择地址，copy=>Just Url

url = https://travelsearch.fliggy.com/async/queryItemResult.do?searchType=product&keyword=%E6%A2%85%E5%B7%9E&pagenum=2

我们把这个网址拿到浏览器用json-handle插件打开

我们可以看到结果很清楚，我们需要拿到的数据就是在auctions中

那么我们修改请求url就可以拿到我们需要的信息了

"https://travelsearch.fliggy.com/async/queryItemResult.do?searchType=product&keyword={}&pagenum={}".format("地点","页码")

PS：获取URL的过程中，有些网站用了缓存，也就是你搜索的东西重复的话，它是不会向服务器请求的，所以有些请求只会出现一次，所以要不断更换参数去请求，总能在一堆请求中找到那个包含了搜索结果的请求信息

关注

19
点赞
踩
77

收藏

觉得还不错? 一键收藏
0
评论
爬虫——隐藏的url获取教学

要爬取信息，最关键的是获取一个正确的url，有时候我们在F12看到的请求是不完整的，是掩盖了真实的url后的结果，所以我们一直找不到所需的url，那么如何获取真正的所需url，下面就拿某猪的搜索来做介绍先打开某猪网站的首页我们想要爬取旅游的信息，那就要通过搜索各个地点，查看其中的月售通过月售信息来判断这个景点在一段时间内的热度那么用爬虫的第一步是什么：获取ur...
复制链接

扫一扫

专栏目录

谢小波zz CSDN认证博客专家 CSDN认证企业博客

码龄6年

8: 原创

18万+: 周排名

62万+: 总排名

7万+: 访问

: 等级

626: 积分

52: 粉丝

48: 获赞

37: 评论

148: 收藏

私信

关注

热门文章

分类专栏

最新评论

关于在Dockerfile文件中使用本地代理（访问宿主机）
FanZheGOGOGO: 牛批，好人一生平安
PDDL语法学习-Domain篇-3
谢小波zz: 你好这是因为你所使用的规划器不支持PDDL2.1的Duration语法可以更换Optic、TFD等其余能够支持时态规划的规划器（Google搜索记得加入planner一起搜索）之后仍然有问题可以使用http://editor.planning.domains/来做简易编辑器然后发送session链接
PDDL语法学习-Domain篇-3
Mingjunxixixix: define(domain magicWorld) (:requirements :typing :fluents :durative-actions :duration-inequalities) (:types player wand place) (:predicates (player-at-place ?py - player ?pla - place) (wand-at-place ?wan - wand ?pla - place) (wand-at-player ?wan - wand ?py - player) (accessible ?p1 ?p2 - place) (player-free ?py - player) ) (:functions (pickup-time-required ?py - player) (move-time-required ?p1 ?p2 - place) (total_time) ) 为什么他会显示我domain.pddl: syntax error in line 2, ':DURATIVE-ACTIONS': domain definition expected
PDDL语法学习-Domain篇-4
G'raha Tia: 谢谢您的回复！
PDDL语法学习-Domain篇-4
谢小波zz: `火车t1在第十步的时候应不在使用中了`, 补充此处的表达，这个应是我们认为思考的“应”，规划器不会考虑这个条件的约束，而是考虑这个条件出来之后的求解规划的约束。所以“时间初始化”是我们想要在规划过程中的约束，但这个约束是我们对定义之后的影响。

您愿意向朋友推荐“博客详情页”吗？

强烈不推荐
不推荐
一般般
推荐
强烈推荐

提交

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。