Hawk： 20分钟无编程抓取大众点评17万数据

最新推荐文章于 2025-02-26 08:47:23 发布

an04g4k

最新推荐文章于 2025-02-26 08:47:23 发布

阅读量6.3k

点赞数

分类专栏： php

本文链接：https://blog.csdn.net/an04g4k/article/details/51435496

版权

本文详细介绍了如何使用Hawk工具，无需编程，在20分钟内抓取大众点评的美食数据。首先，介绍Hawk的基本操作，包括编译安装、自动设置cookie、获取门店列表等步骤。然后，通过全自动和手动方式获取门店信息，并获取50页数据。接着，获取城市的美食门类和区域信息。最后，展示了主流程，组合门类和区域，生成并抓取所有页面，强调了Hawk在数据抓取中的高效和便捷性。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

1. 主角出场：Hawk介绍

Hawk是沙漠之鹰开发的一款数据抓取和清洗工具，目前已经在Github开源。详细介绍可参考：http://www.cnblogs.com/buptzym/p/5454190.html，强烈建议先读这篇文章，该文介绍了详细原理和抓取链家二手房的攻略，以此为基础，才能较好的理解整个操作。

本文将讲解通过本软件，获取大众点评的所有美食数据，可选择任一城市，也可以很方便地修改成获取其他生活门类信息的爬虫。
本文将省略原理，一步步地介绍如何在20分钟内完成爬虫的设计，基本不需要编程，还能自动并行抓取。

看完这篇文章，你应该就能举一反三地抓取绝大多数网站的数据了。Hawk是一整套工具，它的能力取决于你的设计和思路。希望你会喜欢它。

详细过程视频可参考：http://v.qq.com/page/z/g/h/z01891n1rgh.html，值得注意的是，由于软件不断升级，因此细节和视频可能有所出入。
准备好了么？Let's do it!

2. 菜场买菜：编译和安装

编译可使用VS2015(推荐)，否则可直接从网盘下载可执行程序：
http://pan.baidu.com/s/1c8zBiQ 密码：4iy0
之后双击Hawk.exe，即可运行。
依赖环境要求.NET Framework 4.5, win7和以上版本。没有其他依赖项。

3. 做饭先生火：自动设置cookie：

我们先打开大众点评的美食列表页面：
http://www.dianping.com/search/category/2/10/g311
image_1airusse2977232s23148o1pi9.png-224.2kB
这是北京的"北京菜"列表，但你会注意到，只能抓取前50页数据（如箭头所示），是一种防爬虫策略，我们之后来破解它。
我们双击打开一个网页采集器：
image_1airv085o1pdf5u1egvuerjgnm.png-31.3kB
之后在最上方的地址栏里填写地址：
image_1airv1slp1qnb1abtginug2kc913.png-20.2kB
但会发现远程服务器拒绝了请求，原因是大众点评认为Hawk是爬虫而不是浏览器。
没有关系，我们让Hawk来监控浏览器的行为，在右侧的自动嗅探窗口中，填写url过滤和内容筛选，之后点击开始。浏览器会自动打开该网页，程序后台自动记录了所有的行为，之后点击关闭按钮（切记点击关闭）。
image_1airvo473v1h1rj61f3c1fvt9nq37.png-17.8kB
(此处大概介绍原理：Hawk在点击开始之后，会自动成为代理，所有的浏览器请求都会经过Hawk，在输入特定的URL筛选前缀和关键字，则Hawk会自动拦截符合要求的Request，并将其详细信息记录下来，并最终模拟它)。

之后，我们点击右方的“高级设置”里，能够看到Hawk已经把这次访问的cookie和headers自动保存下来：
image_1airves3k7bs44uo0112o01l381t.png-336.8kB
我们再次点击刷新网页，可以看到已经能成功获取网页内容：
image_1airvksaq19ac1ml84d92661rff2a.png-259.1kB
完成这一步之后，我们就能够像普通网页那样免登陆抓取信息了。这也适合需要登录的各类网站。