爬虫
大数据运维
大数据运维研发SRE
展开
-
爬虫+模拟登录
在一些爬虫中,需要用到账号登录进入,才能看到需要爬取的内容,因此实现程序自动模拟登录非常有必要。目前大部分网站的登录,都是使用表单提交的方法实现的,这一类网站的模拟登录,相信度娘已经给出来的许多实例。还有一类网站不是使用网页自带表单提交的方法,网站自己实现了js方法来登录,这就需要进行特别的模拟浏览器行为。本文用到的主要技术手段包括Selenium+Phantomjs+Jsoup。WebDriver原创 2017-06-29 22:19:06 · 3865 阅读 · 0 评论 -
安装Chrome Headless遇到的问题
下载地址https://dl.lancdn.com/landian/software/chrome/m缺少依赖warning: 67.0.3396.79_x86_64.rpm: Header V4 DSA/SHA1 Signature, key ID 7fac5991: NOKEYerror: Failed dependencies: /usr/bin/lsb_release...原创 2018-06-11 08:39:39 · 6256 阅读 · 0 评论 -
各种典型反爬虫套路
反击爬虫,前端工程师的脑洞可以有多大?转载 2017-10-17 11:03:47 · 3029 阅读 · 0 评论 -
Phantomjs服务模式:从性能并发方面谈起
作为比较好的动态网页爬虫手段,phantomjs在许多方面令人比较满意。调用Phantomjs的方式,一般有如下几种情况。命令行模式 在CMD或Shell中,直接输入phantomjs回车,进入命令行模式,能够完成各种操作。但一般情况是通过命令用调用phantomjs来完成爬虫或模拟工作,具体的代码放在JS中。如../bin/phantomjs --debug=yes ./server.js 89原创 2017-10-13 11:50:29 · 3327 阅读 · 0 评论 -
Weibo单节点爬虫设计
微博目前开发数据接口,如果用于商业用途最好通过此接口来获取微博数据。作者爬去少量数据,仅用于研究学习。原创 2017-10-12 20:56:29 · 1091 阅读 · 0 评论 -
HTML全文转化为PDF技术选型研究与流行方法汇总
在实际也无需求中,需要用到网页快照功能,并能够查看历史网页快照功能,因此需要实现网页格式的固化保存,保存为图片或PDF文件的形式。技术研究 做这样研究了网上许多技术,大都存在各种各样的缺陷。html2canvas&jsPDF 感兴趣的读者,可以参考: https://github.com/linwalker/render-html-to-pdf 该种方法,主要是通过JS调用实现,无法通过脚原创 2017-09-29 11:26:12 · 942 阅读 · 0 评论 -
Elasticsearch 存放地理信息数据+百度POI分析
ES是一个全文搜索引擎,同时也是一个NoSQL数据库,其存放数据方便与检索数据性能优越,收到普遍欢迎。ES架构参考文章:架构及原理ES地理数据操作参考文章:Elasticsearch地理位置总结实际操作建立Index一般有两种方式 1. ES Header通过界面化操作,直接可以建立Index: 2. 通过ES API可以创建Index。一般可以选择Java/Python的ES接口API原创 2017-09-27 20:48:19 · 4027 阅读 · 0 评论 -
Java使用付费代理的两种实现方法
免费代理,如西刺代理、快代理等代理网站公布的代理地址,常常存在几个问题: 1. 存在反扒措施,如限制爬虫频率、存在并发数限制、封IP等; 2. 免费代理存在时效性,无法长时间使用。目前获得稳定性能的最佳途径就是购买代理服务资源,通过代理服务商给出的IP:Port,UserName:Password来访问代理服务器,从而获得良好的代理体验。本文简单介绍,使用原创 2017-09-26 14:29:26 · 1077 阅读 · 0 评论 -
判断GPS省市/区县非API调用方法
判断一个GPS点是否位于某省市/区县内,通常可以调用地图API来解决,通过调用逆地理信息API,可以获得完整的地址信息,因此可以判断该GPS的省市/区县。本文基于省市/区县的隶属关系,及其形状的几何关系,判断一个GPS点的隶属信息。原理如何判断一个点是否位于某几何形状之内呢? 参考文献:判断一个点是否在多边形区域内判断根据中国各省/直辖市边界,以及省市包含二级行政划分的边界信息,以及三级区县划分的原创 2017-09-23 18:15:02 · 1632 阅读 · 0 评论 -
一种可行性Java爬虫框架
简单的Java爬虫框架流程图,不包括容灾机制、异常处理等内容。框架流程图 搭建分布式爬虫系统,框架的主要工作是打通队列、存储之间的联系。之后的工作,包括爬虫策略、容灾机制、错误处理等,都是通过爬虫节点来处理。 事实上,只要框架搭建好之后,不断完善本地爬虫策略【使用内存队列】,就能够很好的实现分布式爬虫。爬虫节点爬虫节点设计的主要内容,包括但不限于: 1. 爬虫深度; 2. 爬虫策略;原创 2017-09-23 17:45:16 · 780 阅读 · 0 评论 -
解析离线地图包可行性分析
当今数据作为一家公司最重要的资产,可被该公司用来租赁、买卖、二次开发等使用。但外部人员非合理使用该公司数据,可能构成违法犯罪行为。各大地图供应商,包括但不限于百度、腾讯、高德等都有自己的地理数据编码格式,以及开放出来的API供开发者/用户使用。通过研究发现,解析离线地图包来获取地图数据的方式是不可行的。主要基于以下几点:离线地图包,存在数据加密。在不知道解密方式的情况下,解密的时间成本可能为无限大原创 2017-09-23 12:08:22 · 1211 阅读 · 0 评论 -
GPS经纬度转化为百度地图/Google坐标及互转方案
http://blog.csdn.net/ma969070578/article/details/41013547转载 2017-09-23 11:56:28 · 5816 阅读 · 0 评论 -
无限制获取GPS对应地址的一种方法
市面上基本没有免费获取地理位置的方法,特别是对实时性要求比较高的情况下,基本上都是付费服务。本文使用Google地图API,在实时性要求不太高的情况下,能够不断获取GPS对应地址位置信息。原理调用Google地图API原创 2017-09-23 11:50:19 · 2972 阅读 · 0 评论 -
各大地图API关于逆地理位置编码
物理网时代(IOT),设备供应商可以获得大量的GPS信息,移动物品的GPS信息尤其重要。通过研究GPS的轨迹,或停留位置等信息,可以获得对营销、售后、商业合作等重要的信息。想要了解GPS信息,首先需要通过编码,获取GPS的物理地址,以及GPS转化、编码等内容。本文作者遇到GPS逆编码问题,对比了百度地图API、高德地图API、腾讯地图API等三家国内主要地图供应商的API调用、条数限制、并发限制等内原创 2017-09-23 11:31:43 · 5765 阅读 · 0 评论 -
我与汽车之家的三生三世
说起爬虫,目前存在许多流行的爬虫框架。其中最著名的莫过于Python语言方面的Scrapy,Java语言方面的Webcollector。它们都是开源的爬虫工具,根据不同的使用场景、业务特点、开发人员的语言偏好,可以选择不同功能的开源框架。当然老司机,也可能自己开发一种爬虫功能框架,毕竟自己编写的才能够更好的配置、控制、使用爬虫,完成爬虫业务的需求。第一生初进入爬虫坑洞,感觉爬虫很难。刚开始,选择的是原创 2017-07-10 20:49:48 · 2815 阅读 · 0 评论 -
Chromeheadless安装与使用
如果是小规模爬虫或模拟效果要求不高的话,使用Selenium HtmlUniDriver基本可以满足需求。但HtmlUnitDriver是基于JS模拟浏览器原理,存在许多浏览器可以做,但它其实无法操作的功能,比如截图等高级功能。 之前爬虫使用Phantomjs,感觉效果还不错,而且使用方便。Phantomjs可以设置远程模式,方便本地调试;方便设置代理,但这里有一个坑,就是代理地址不...原创 2018-06-30 12:47:19 · 17103 阅读 · 2 评论