自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(7)
  • 收藏
  • 关注

原创 如何破解字体反爬机制

        这几天爬取58租房信息的时候意外发现了它是一个字体反爬的网站,所谓的字体反爬就是网站将一些关键字替换为网站自己的字体,这样在网页上字体会正常显示,但是当爬取下来的时候,经过字体加密的字符都是乱码的,根本无法查看如图所示:可以看到,2390元/月在页面上是正常显示的,但是,当我们打开查看器查看的时候......好端端的2390就变成了不知道什么字符.........

2018-10-27 17:39:14 5031 1

原创 通过ajax接口爬取智联招聘

        上次分析了抓取智联招聘网站遇到的坑,最后使用selenium模拟的方法抓取到了智联的招聘数据,但是我发现通过分析智联招聘的ajax接口,模拟ajax请求直接获取json数据这种方法更简单。        分析网页ajax接口:在搜索框输入python,点击搜索,打开浏览器开发者模式,点击network,点击XHR过滤出来ajax请求第一页:这是搜索之后第一页的信息,...

2018-10-27 16:04:25 1683

原创 分析ajax接口抓取今日头条

        抓取ajax网站可以通过分析ajax接口的方式获取到返回的json数据,从而抓取到我们想要的数据,以今日头条为例,如何分析ajax接口,模拟ajax请求爬取数据。        以今日头条的街拍为例,网页上一页只显示部分数据,查看后续数据需要鼠标下滑,这里我们分析一下它的ajax接口。打开开发者工具,选择network,点击XHR过滤出来ajax请求,可以看到这里有很多...

2018-10-27 10:43:40 3213

原创 flask项目部署

此次部署用的是在阿里云购买的服务器(Ubuntu),nginx+uwsgi部署项目之前确保你在阿里云安全组设置了端口能够访问,下载安装过nginx,uwsgi与python环境,安装flask项目所用到的各种库(生成requirements.txt文件快速安装)。项目文件我将自己的项目文件放到了var/www/目录下,项目的文件为blog配置nginx服务器1.切换到etc/n...

2018-10-07 10:39:08 397

原创 requests实现一个通用自动下载爬虫(限制下载速度,下载深度)

        Scrapy框架虽然能够很方便的下载网页,但是有时候爬取数据可能用不到Scrapy如此大的框架,使用requests库进行下载更加方便,那么我们就可以手动实现一个通用的requests库进行下载的爬虫,包括自动下载网页中其他链接的网页,限制爬虫爬取的速度,限制爬取网页的深度(从种子链接往下爬取几层网页)。        主要功能实现:1.从下载的网页抽取出其他网页的链接。2.解...

2018-10-07 09:43:40 3524

原创 实现爬虫下载限速

        大部分网站一般都会通过ip的访问频率来判断是不是爬虫,虽然Scrapy框架实现了爬虫的限制爬取速度功能,但是当我们爬取的信息不需要用到Scrapy框架,使用requests更加方便的时候,就需要自己手动实现爬虫限制下载速度了。        代码思路:1.记录爬虫爬取过的每个链接与爬取时间的时间戳;2.设置两次下载时间间隔;3.下载新的网页的时候判断两次下载的时间间隔是否达到了...

2018-10-06 16:39:34 1634

原创 Scrapy框架原理及流程

这是一篇整理爬虫概念知识的文章。Scrapy工作流程图Scrapy数据流是由执行的核心引擎(engine)控制,流程是这样的:1、爬虫引擎获得初始请求开始抓取。 2、爬虫引擎开始请求调度程序,并准备对下一次的请求进行抓取。 3、爬虫调度器返回下一个请求给爬虫引擎。 4、引擎请求发送到下载器,通过下载中间件下载网络数据。 5、一旦下载器完成页面下载,将下载结果返回给爬...

2018-10-06 16:13:54 916

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除