python爬取旅游信息网_Python爬虫框架scrapy抓取旅行家网所有游记！从此出游不发愁！...

最新推荐文章于 2024-07-12 22:58:11 发布

weixin_39832727

最新推荐文章于 2024-07-12 22:58:11 发布

阅读量499

点赞数

文章标签： python爬取旅游信息网

Scrapy是一个用 Python 写的 Crawler Framework ，简单轻巧，并且非常方便。Scrapy 使用 Twisted 这个异步网络库来处理网络通讯，架构清晰，并且包含了各种中间件接口，可以灵活的完成各种需求。

以上是网上摘录的一段介绍scrapy框架的文字，大过年的，懒癌高发期...

安装scrapy，pip可以解决你的问题： pip install scrapy。

这里插一句，如果你运行代码后看到这个错误：

ImportError: No module named win32api

深坑出现，你需要安装pywin32，如果已经安装了pywin32，还出现错误，你仍需手动将你python安装目录下\Lib\site-packages\pywin32_system32下：pythoncom27.dll, pywintypes27.dll两个文件复制到c:\windows\system32下！当然如果不是windows系统的话，请无视！

话不多说，开始我们的爬虫吧！

首先来分析网页结构：

1、url:https://you.autohome.com.cn 打开旅行家的主页，这里我用的是火狐浏览器，看下图

点击精彩游记，然后跳出游记页面，

然后在点击全部游记，我们的目标就出现了，拉到最下面，一共3993页，1页20篇

很简单的一个网站

2、我们开始分析每页的数据，直接打开F12抓包，然后刷新网页或者点击其他页，看看服务器返回的请求都有哪些！

找到一个get请求，里面是json格式的内容，里面有游记的作者、标题、缩略图等等内容，ok，我们可以开始写代码了！

Ps:这里我们只做个简单的页面目录的爬虫，就不一一抓取文章内容了(如果有需要的小伙伴可以自行添加相关内容)。

3、打开cmd新建一个scrapy框架，命令为：scrapy startproject autohome ,然后系统自动帮我们建立好相关的目录和py文件，我们仍需手动建立一个spider.py(文件名可自取)来放入我们的爬虫

先打开item.py，这里存放的是我们的目标，告诉爬虫我们要爬取的内容是什么！代码如下：

然后打开setting.py(如无必要，不要修改这里的内容)，将ROBOTSTXT_OBEY的值改为False(不改的话，有些内容爬不到，这里是选择是否遵循robots协议),然后将你的UA写入下面的头部信息中！