2018年10月_学习真的很有用

原创如何破解字体反爬机制

这几天爬取58租房信息的时候意外发现了它是一个字体反爬的网站，所谓的字体反爬就是网站将一些关键字替换为网站自己的字体，这样在网页上字体会正常显示，但是当爬取下来的时候，经过字体加密的字符都是乱码的，根本无法查看如图所示:可以看到，2390元/月在页面上是正常显示的，但是，当我们打开查看器查看的时候......好端端的2390就变成了不知道什么字符.........

2018-10-27 17:39:14 5031 1

原创通过ajax接口爬取智联招聘

上次分析了抓取智联招聘网站遇到的坑，最后使用selenium模拟的方法抓取到了智联的招聘数据，但是我发现通过分析智联招聘的ajax接口，模拟ajax请求直接获取json数据这种方法更简单。分析网页ajax接口:在搜索框输入python，点击搜索，打开浏览器开发者模式，点击network，点击XHR过滤出来ajax请求第一页:这是搜索之后第一页的信息，...

2018-10-27 16:04:25 1683

原创分析ajax接口抓取今日头条

抓取ajax网站可以通过分析ajax接口的方式获取到返回的json数据，从而抓取到我们想要的数据，以今日头条为例，如何分析ajax接口，模拟ajax请求爬取数据。以今日头条的街拍为例，网页上一页只显示部分数据，查看后续数据需要鼠标下滑，这里我们分析一下它的ajax接口。打开开发者工具，选择network，点击XHR过滤出来ajax请求，可以看到这里有很多...

2018-10-27 10:43:40 3213

原创 flask项目部署

此次部署用的是在阿里云购买的服务器(Ubuntu)，nginx+uwsgi部署项目之前确保你在阿里云安全组设置了端口能够访问，下载安装过nginx，uwsgi与python环境，安装flask项目所用到的各种库(生成requirements.txt文件快速安装)。项目文件我将自己的项目文件放到了var/www/目录下，项目的文件为blog配置nginx服务器1.切换到etc/n...

2018-10-07 10:39:08 397

原创 requests实现一个通用自动下载爬虫(限制下载速度，下载深度)

Scrapy框架虽然能够很方便的下载网页，但是有时候爬取数据可能用不到Scrapy如此大的框架，使用requests库进行下载更加方便，那么我们就可以手动实现一个通用的requests库进行下载的爬虫，包括自动下载网页中其他链接的网页，限制爬虫爬取的速度，限制爬取网页的深度(从种子链接往下爬取几层网页)。主要功能实现：1.从下载的网页抽取出其他网页的链接。2.解...

2018-10-07 09:43:40 3524

原创实现爬虫下载限速

大部分网站一般都会通过ip的访问频率来判断是不是爬虫，虽然Scrapy框架实现了爬虫的限制爬取速度功能，但是当我们爬取的信息不需要用到Scrapy框架，使用requests更加方便的时候，就需要自己手动实现爬虫限制下载速度了。代码思路:1.记录爬虫爬取过的每个链接与爬取时间的时间戳；2.设置两次下载时间间隔；3.下载新的网页的时候判断两次下载的时间间隔是否达到了...

2018-10-06 16:39:34 1634

原创 Scrapy框架原理及流程

这是一篇整理爬虫概念知识的文章。Scrapy工作流程图Scrapy数据流是由执行的核心引擎(engine)控制，流程是这样的：1、爬虫引擎获得初始请求开始抓取。 2、爬虫引擎开始请求调度程序，并准备对下一次的请求进行抓取。 3、爬虫调度器返回下一个请求给爬虫引擎。 4、引擎请求发送到下载器，通过下载中间件下载网络数据。 5、一旦下载器完成页面下载，将下载结果返回给爬...

2018-10-06 16:13:54 916

WanYu_Lss的博客