Scrapy爬虫(零基础到入门,超详细)

为什么要做爬虫

为什么
什么是爬虫

都说现在是”大数据时代”,那数据从何而来?
企业产生的用户数据、数据平台购买数据、政府/机构公开的数据、数据管理咨询公司、爬取网络数据,这样就可以得到大量的数据来做相关的项目或者训练模型,所以学会爬虫尤为重要

效果演示
效果展示

通过爬虫来获取相亲网站的妹子的信息:例如 :年龄、 城市、 身高 以及薪资 、学历 等等

爬虫过程

开发环境
python:3.6.1的
开发环境: pycharm
目标:
要爬数据的网站爬取网站的网址
通过筛选条件,来从相亲网站上爬取出自己想要相亲的妹子的图片以及基本信息

这个代码我是用python中的requests库来做的,想了解Scrapy框架的可以查看我另一篇博客Scrapy爬虫框架来了解一下

废话不多说 直接上代码
在这里我想说一点,因为这也是我一开始犯的错误,进入这个网站后我发现我找不到想要的网址,推荐用火狐浏览器 然后按F12 进入控制台 在这点一下就可以看到你筛选的网址信息,如下图:
网址信息

筛选条件
帅选图片2

以上这两部分是筛选条件的函数 输入你期望寻找对象的年龄、城市、身高、以及性别,看上面提到的控制台中的网址应该就可以看明白,在这里我就不多说了。
然后调用上面写的条件函数
调用条件函数
因为相亲网站上后边的页数是你一往下划拉就会变得 所以我这是让他循环10次,具体的可以自己开控制台看一下

getone函数
getone函数

这里面开头写的heads是为了防止一些网站的反爬措施的拦截,我们都知道有的网站是不想让你的爬虫程序来获取图片的,所以他会判断你是浏览器还是一个程序,如果是程序的话给你拦截,如果是网址就放行,这个同样打开控制台如下图:
头
把里面的user-Agent 和 Referf 放进去就可以了,然后之所以用while True循环 因为你不知道这个网址李你需要返回多少数据,所以直接设个死循环,等他完成后自动返回就可以了,返回的是一个json数据打印一下如下图
json
我们可以看到我们想要的数据都在list里面,所以通过json[‘data’][‘list’]就可以获取到了 ,然后接下来就是保存数据了,在这我还是写了个函数——save_image函数
保存图片函数

至于里面重要的注释我也已经标注好了,大家应该都可以看懂
想附上整体代码,让大家直接可以下载粘贴 发现不会弄 大家只能在代码下载戳这里下载 xiangqin.py 文件 然后进行运行,跑程序了 ,有错误的地方希望大家指出 谢谢

  • 1
    点赞
  • 15
    收藏
    觉得还不错? 一键收藏
  • 2
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值