- 博客(9)
- 资源 (2)
- 收藏
- 关注
java开源爬虫gecco 发布1.0.8版本
gecco 1.0.8 发布了。1.0.8版本主要做了如下修改:GeccoEngine增加loop方法,支持不循环抓取。gecco默认将改为采用不循环抓取2.支持移动端的UserAgent,通过GeccoEngine.mobile(true)设置3.支持配置初始化地址,自动扫描classpath根目录下的starts.json文件4.HttpResponse增加释放raw的方法5....
2016-03-30 12:56:18 165
java爬虫gecco的稳定性测试
java爬虫gecco的稳定性测试最近对开源的java爬虫Gecco做了一个稳定性测试,测试环境:一台爬虫+web应用服务器,一台mongodb服务器。服务器配置很low,两台都是阿里云最低端的主机,1核+512内存。单线程测试场景爬虫采用单线程,测试时间3×24小时,测试期间系统无异常,jvm内存稳定。测试结果:基本信息 Interval: 5000, Sta...
2016-03-28 11:43:23 318
原创 java爬虫gecco监控来了,不再裸奔
java爬虫gecco监控来了,不再裸奔爬虫为什么要监控gecco是一个十分简单易用的java开源爬虫框架,同时也一个款拥有很好扩展性的框架,目前已经有:结合spring的插件gecco-spring结合htmlunit的插件gecco-htmlunit结合reids的插件gecco-reids在开发爬虫时,由于要对很多网站和链接进行抓取,并对抓取下来的网站进行内容的抽取。大量的链接下载和内容抽取如
2016-03-21 13:40:23 2173
java爬虫gecco监控来了,不再裸奔
java爬虫gecco监控来了,不再裸奔爬虫为什么要监控gecco是一个十分简单易用的java开源爬虫框架,同时也一个款拥有很好扩展性的框架,目前已经有:结合spring的插件gecco-spring结合htmlunit的插件gecco-htmlunit结合redis的插件gecco-redis在开发爬虫时,由于要对很多网站和链接进行抓取,并对抓取下来的网站进行内容的抽...
2016-03-21 10:52:35 554
原创 加密技术入门——从对称加密到CA证书
加密技术入门——从对称加密到CA证书几个基本概念 对称加密对称加密是最传统的加密方式,简单说就是用一个密钥对原文加密,再用同样密钥对原文解密。对称加密的优点就是加密速度快,但是缺点也很明显,密钥的传递无法保障。常见的对称加密算法有DES、3DES、AES等 非对称加密为了解决密钥传递的问题,聪明的人类罗纳德·李维斯特(Ron Rivest)、阿迪·萨莫尔(Adi Shamir)和伦纳德·
2016-03-18 14:10:13 408
原创 教您使用java爬虫gecco抓取JD全部商品信息
教您使用java爬虫gecco抓取JD全部商品信息gecco爬虫如果对gecco还没有了解可以参看一下gecco的github首页。gecco爬虫十分的简单易用,JD全部商品信息的抓取9个类就能搞定。JD网站的分析要抓取JD网站的全部商品信息,我们要先分析一下网站,京东网站可以大体分为三级,首页上通过分类跳转到商品列表页,商品列表页对每个商品有详情页。那么我们通过找到所有分类就能逐个分类抓取商品信息
2016-03-18 14:06:33 2092 2
java开源爬虫gecco发布版本1.0.6,更灵活的配置downloader
1.0.6Release1、修改request的原始流raw被关闭的bug2、将downloader关联到gecco上,@Gecco增加downloader和timeout选项 @Gecco(matchUrl="https://github.com/{user}/{project}", pipelines="consolePipeline", downloader="...
2016-03-15 18:11:03 211
加密技术入门——从对称加密到CA证书
加密技术入门——从对称加密到CA证书几个基本概念对称加密对称加密是最传统的加密方式,简单说就是用一个密钥对原文加密,再用同样密钥对原文解密。对称加密的优点就是加密速度快,但是缺点也很明显,密钥的传递无法保障。常见的对称加密算法有DES、3DES、AES等非对称加密为了解决密钥传递的问题,聪明的人类罗纳德·李维斯特(Ron Rivest)、阿迪·萨莫尔(Adi ...
2016-03-10 15:35:27 180
java爬虫gecco支持htmlunit
java爬虫gecco支持htmlunitjava爬虫gecco发布了1.0.5版本,增加了对htmlunit的支持。htmlunit是一款开源的java 页面分析工具,读取页面后,可以有效的使用htmlunit分析页面上的内容。项目可以模拟浏览器运行,被誉为java浏览器的开源实现。这个没有界面的浏览器,运行速度也是非常迅速的。htmlunit采用的是rhino作为javascript的...
2016-03-07 10:32:20 317
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人