自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(9)
  • 资源 (2)
  • 收藏
  • 关注

java开源爬虫gecco 发布1.0.8版本

gecco 1.0.8 发布了。1.0.8版本主要做了如下修改:GeccoEngine增加loop方法,支持不循环抓取。gecco默认将改为采用不循环抓取2.支持移动端的UserAgent,通过GeccoEngine.mobile(true)设置3.支持配置初始化地址,自动扫描classpath根目录下的starts.json文件4.HttpResponse增加释放raw的方法5....

2016-03-30 12:56:18 165

java爬虫gecco的稳定性测试

java爬虫gecco的稳定性测试最近对开源的java爬虫Gecco做了一个稳定性测试,测试环境:一台爬虫+web应用服务器,一台mongodb服务器。服务器配置很low,两台都是阿里云最低端的主机,1核+512内存。单线程测试场景爬虫采用单线程,测试时间3×24小时,测试期间系统无异常,jvm内存稳定。测试结果:基本信息 Interval: 5000, Sta...

2016-03-28 11:43:23 318

原创 java爬虫gecco监控来了,不再裸奔

java爬虫gecco监控来了,不再裸奔爬虫为什么要监控gecco是一个十分简单易用的java开源爬虫框架,同时也一个款拥有很好扩展性的框架,目前已经有:结合spring的插件gecco-spring结合htmlunit的插件gecco-htmlunit结合reids的插件gecco-reids在开发爬虫时,由于要对很多网站和链接进行抓取,并对抓取下来的网站进行内容的抽取。大量的链接下载和内容抽取如

2016-03-21 13:40:23 2173

java爬虫gecco监控来了,不再裸奔

java爬虫gecco监控来了,不再裸奔爬虫为什么要监控gecco是一个十分简单易用的java开源爬虫框架,同时也一个款拥有很好扩展性的框架,目前已经有:结合spring的插件gecco-spring结合htmlunit的插件gecco-htmlunit结合redis的插件gecco-redis在开发爬虫时,由于要对很多网站和链接进行抓取,并对抓取下来的网站进行内容的抽...

2016-03-21 10:52:35 554

原创 加密技术入门——从对称加密到CA证书

加密技术入门——从对称加密到CA证书几个基本概念 对称加密对称加密是最传统的加密方式,简单说就是用一个密钥对原文加密,再用同样密钥对原文解密。对称加密的优点就是加密速度快,但是缺点也很明显,密钥的传递无法保障。常见的对称加密算法有DES、3DES、AES等 非对称加密为了解决密钥传递的问题,聪明的人类罗纳德·李维斯特(Ron Rivest)、阿迪·萨莫尔(Adi Shamir)和伦纳德·

2016-03-18 14:10:13 408

原创 教您使用java爬虫gecco抓取JD全部商品信息

教您使用java爬虫gecco抓取JD全部商品信息gecco爬虫如果对gecco还没有了解可以参看一下gecco的github首页。gecco爬虫十分的简单易用,JD全部商品信息的抓取9个类就能搞定。JD网站的分析要抓取JD网站的全部商品信息,我们要先分析一下网站,京东网站可以大体分为三级,首页上通过分类跳转到商品列表页,商品列表页对每个商品有详情页。那么我们通过找到所有分类就能逐个分类抓取商品信息

2016-03-18 14:06:33 2092 2

java开源爬虫gecco发布版本1.0.6,更灵活的配置downloader

1.0.6Release1、修改request的原始流raw被关闭的bug2、将downloader关联到gecco上,@Gecco增加downloader和timeout选项 @Gecco(matchUrl="https://github.com/{user}/{project}", pipelines="consolePipeline", downloader="...

2016-03-15 18:11:03 211

加密技术入门——从对称加密到CA证书

加密技术入门——从对称加密到CA证书几个基本概念对称加密对称加密是最传统的加密方式,简单说就是用一个密钥对原文加密,再用同样密钥对原文解密。对称加密的优点就是加密速度快,但是缺点也很明显,密钥的传递无法保障。常见的对称加密算法有DES、3DES、AES等非对称加密为了解决密钥传递的问题,聪明的人类罗纳德·李维斯特(Ron Rivest)、阿迪·萨莫尔(Adi ...

2016-03-10 15:35:27 180

java爬虫gecco支持htmlunit

java爬虫gecco支持htmlunitjava爬虫gecco发布了1.0.5版本,增加了对htmlunit的支持。htmlunit是一款开源的java 页面分析工具,读取页面后,可以有效的使用htmlunit分析页面上的内容。项目可以模拟浏览器运行,被誉为java浏览器的开源实现。这个没有界面的浏览器,运行速度也是非常迅速的。htmlunit采用的是rhino作为javascript的...

2016-03-07 10:32:20 317

ejb in action

ejb in action 英文版 pdf

2010-03-19

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除