爬虫相关
爬虫相关文章
大数据运维
大数据运维研发SRE
展开
-
爬虫+模拟登录
在一些爬虫中,需要用到账号登录进入,才能看到需要爬取的内容,因此实现程序自动模拟登录非常有必要。目前大部分网站的登录,都是使用表单提交的方法实现的,这一类网站的模拟登录,相信度娘已经给出来的许多实例。还有一类网站不是使用网页自带表单提交的方法,网站自己实现了js方法来登录,这就需要进行特别的模拟浏览器行为。本文用到的主要技术手段包括Selenium+Phantomjs+Jsoup。WebDriver原创 2017-06-29 22:19:06 · 3865 阅读 · 0 评论 -
我与汽车之家的三生三世
说起爬虫,目前存在许多流行的爬虫框架。其中最著名的莫过于Python语言方面的Scrapy,Java语言方面的Webcollector。它们都是开源的爬虫工具,根据不同的使用场景、业务特点、开发人员的语言偏好,可以选择不同功能的开源框架。当然老司机,也可能自己开发一种爬虫功能框架,毕竟自己编写的才能够更好的配置、控制、使用爬虫,完成爬虫业务的需求。第一生初进入爬虫坑洞,感觉爬虫很难。刚开始,选择的是原创 2017-07-10 20:49:48 · 2815 阅读 · 0 评论 -
一种可行性Java爬虫框架
简单的Java爬虫框架流程图,不包括容灾机制、异常处理等内容。框架流程图 搭建分布式爬虫系统,框架的主要工作是打通队列、存储之间的联系。之后的工作,包括爬虫策略、容灾机制、错误处理等,都是通过爬虫节点来处理。 事实上,只要框架搭建好之后,不断完善本地爬虫策略【使用内存队列】,就能够很好的实现分布式爬虫。爬虫节点爬虫节点设计的主要内容,包括但不限于: 1. 爬虫深度; 2. 爬虫策略;原创 2017-09-23 17:45:16 · 780 阅读 · 0 评论 -
Elasticsearch 存放地理信息数据+百度POI分析
ES是一个全文搜索引擎,同时也是一个NoSQL数据库,其存放数据方便与检索数据性能优越,收到普遍欢迎。ES架构参考文章:架构及原理ES地理数据操作参考文章:Elasticsearch地理位置总结实际操作建立Index一般有两种方式 1. ES Header通过界面化操作,直接可以建立Index: 2. 通过ES API可以创建Index。一般可以选择Java/Python的ES接口API原创 2017-09-27 20:48:19 · 4027 阅读 · 0 评论 -
Weibo单节点爬虫设计
微博目前开发数据接口,如果用于商业用途最好通过此接口来获取微博数据。作者爬去少量数据,仅用于研究学习。原创 2017-10-12 20:56:29 · 1091 阅读 · 0 评论 -
Phantomjs服务模式:从性能并发方面谈起
作为比较好的动态网页爬虫手段,phantomjs在许多方面令人比较满意。调用Phantomjs的方式,一般有如下几种情况。命令行模式 在CMD或Shell中,直接输入phantomjs回车,进入命令行模式,能够完成各种操作。但一般情况是通过命令用调用phantomjs来完成爬虫或模拟工作,具体的代码放在JS中。如../bin/phantomjs --debug=yes ./server.js 89原创 2017-10-13 11:50:29 · 3327 阅读 · 0 评论 -
安装Chrome Headless遇到的问题
下载地址https://dl.lancdn.com/landian/software/chrome/m缺少依赖warning: 67.0.3396.79_x86_64.rpm: Header V4 DSA/SHA1 Signature, key ID 7fac5991: NOKEYerror: Failed dependencies: /usr/bin/lsb_release...原创 2018-06-11 08:39:39 · 6256 阅读 · 0 评论 -
Chromeheadless安装与使用
如果是小规模爬虫或模拟效果要求不高的话,使用Selenium HtmlUniDriver基本可以满足需求。但HtmlUnitDriver是基于JS模拟浏览器原理,存在许多浏览器可以做,但它其实无法操作的功能,比如截图等高级功能。 之前爬虫使用Phantomjs,感觉效果还不错,而且使用方便。Phantomjs可以设置远程模式,方便本地调试;方便设置代理,但这里有一个坑,就是代理地址不...原创 2018-06-30 12:47:19 · 17103 阅读 · 2 评论