- 博客(7)
- 收藏
- 关注
原创 如何破解字体反爬机制
这几天爬取58租房信息的时候意外发现了它是一个字体反爬的网站,所谓的字体反爬就是网站将一些关键字替换为网站自己的字体,这样在网页上字体会正常显示,但是当爬取下来的时候,经过字体加密的字符都是乱码的,根本无法查看如图所示:可以看到,2390元/月在页面上是正常显示的,但是,当我们打开查看器查看的时候......好端端的2390就变成了不知道什么字符.........
2018-10-27 17:39:14 5031 1
原创 通过ajax接口爬取智联招聘
上次分析了抓取智联招聘网站遇到的坑,最后使用selenium模拟的方法抓取到了智联的招聘数据,但是我发现通过分析智联招聘的ajax接口,模拟ajax请求直接获取json数据这种方法更简单。 分析网页ajax接口:在搜索框输入python,点击搜索,打开浏览器开发者模式,点击network,点击XHR过滤出来ajax请求第一页:这是搜索之后第一页的信息,...
2018-10-27 16:04:25 1683
原创 分析ajax接口抓取今日头条
抓取ajax网站可以通过分析ajax接口的方式获取到返回的json数据,从而抓取到我们想要的数据,以今日头条为例,如何分析ajax接口,模拟ajax请求爬取数据。 以今日头条的街拍为例,网页上一页只显示部分数据,查看后续数据需要鼠标下滑,这里我们分析一下它的ajax接口。打开开发者工具,选择network,点击XHR过滤出来ajax请求,可以看到这里有很多...
2018-10-27 10:43:40 3213
原创 flask项目部署
此次部署用的是在阿里云购买的服务器(Ubuntu),nginx+uwsgi部署项目之前确保你在阿里云安全组设置了端口能够访问,下载安装过nginx,uwsgi与python环境,安装flask项目所用到的各种库(生成requirements.txt文件快速安装)。项目文件我将自己的项目文件放到了var/www/目录下,项目的文件为blog配置nginx服务器1.切换到etc/n...
2018-10-07 10:39:08 397
原创 requests实现一个通用自动下载爬虫(限制下载速度,下载深度)
Scrapy框架虽然能够很方便的下载网页,但是有时候爬取数据可能用不到Scrapy如此大的框架,使用requests库进行下载更加方便,那么我们就可以手动实现一个通用的requests库进行下载的爬虫,包括自动下载网页中其他链接的网页,限制爬虫爬取的速度,限制爬取网页的深度(从种子链接往下爬取几层网页)。 主要功能实现:1.从下载的网页抽取出其他网页的链接。2.解...
2018-10-07 09:43:40 3524
原创 实现爬虫下载限速
大部分网站一般都会通过ip的访问频率来判断是不是爬虫,虽然Scrapy框架实现了爬虫的限制爬取速度功能,但是当我们爬取的信息不需要用到Scrapy框架,使用requests更加方便的时候,就需要自己手动实现爬虫限制下载速度了。 代码思路:1.记录爬虫爬取过的每个链接与爬取时间的时间戳;2.设置两次下载时间间隔;3.下载新的网页的时候判断两次下载的时间间隔是否达到了...
2018-10-06 16:39:34 1634
原创 Scrapy框架原理及流程
这是一篇整理爬虫概念知识的文章。Scrapy工作流程图Scrapy数据流是由执行的核心引擎(engine)控制,流程是这样的:1、爬虫引擎获得初始请求开始抓取。 2、爬虫引擎开始请求调度程序,并准备对下一次的请求进行抓取。 3、爬虫调度器返回下一个请求给爬虫引擎。 4、引擎请求发送到下载器,通过下载中间件下载网络数据。 5、一旦下载器完成页面下载,将下载结果返回给爬...
2018-10-06 16:13:54 916
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人