Scrapy爬虫（零基础到入门，超详细）

最新推荐文章于 2024-08-05 10:37:56 发布

csdn_Home_Chen

最新推荐文章于 2024-08-05 10:37:56 发布

阅读量4k

点赞数 1

本文链接：https://blog.csdn.net/qq_42851114/article/details/81479202

版权

为什么要做爬虫

为什么
什么是爬虫

都说现在是”大数据时代”，那数据从何而来？
企业产生的用户数据、数据平台购买数据、政府/机构公开的数据、数据管理咨询公司、爬取网络数据，这样就可以得到大量的数据来做相关的项目或者训练模型，所以学会爬虫尤为重要

效果演示
效果展示

通过爬虫来获取相亲网站的妹子的信息：例如：年龄、城市、身高以及薪资、学历等等

爬虫过程

开发环境：
python：3.6.1的
开发环境: pycharm
目标:
要爬数据的网站爬取网站的网址
通过筛选条件，来从相亲网站上爬取出自己想要相亲的妹子的图片以及基本信息

这个代码我是用python中的requests库来做的，想了解Scrapy框架的可以查看我另一篇博客Scrapy爬虫框架来了解一下

废话不多说直接上代码
在这里我想说一点，因为这也是我一开始犯的错误，进入这个网站后我发现我找不到想要的网址，推荐用火狐浏览器然后按F12 进入控制台在这点一下就可以看到你筛选的网址信息，如下图：

筛选条件
帅选图片2

以上这两部分是筛选条件的函数输入你期望寻找对象的年龄、城市、身高、以及性别，看上面提到的控制台中的网址应该就可以看明白，在这里我就不多说了。
然后调用上面写的条件函数
调用条件函数
因为相亲网站上后边的页数是你一往下划拉就会变得所以我这是让他循环10次，具体的可以自己开控制台看一下

getone函数

这里面开头写的heads是为了防止一些网站的反爬措施的拦截，我们都知道有的网站是不想让你的爬虫程序来获取图片的，所以他会判断你是浏览器还是一个程序，如果是程序的话给你拦截，如果是网址就放行，这个同样打开控制台如下图：

把里面的user-Agent 和 Referf 放进去就可以了，然后之所以用while True循环因为你不知道这个网址李你需要返回多少数据，所以直接设个死循环，等他完成后自动返回就可以了，返回的是一个json数据打印一下如下图
json
我们可以看到我们想要的数据都在list里面,所以通过json[‘data’][‘list’]就可以获取到了，然后接下来就是保存数据了，在这我还是写了个函数——save_image函数
保存图片函数