自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(17)
  • 收藏
  • 关注

转载 golang 内存分配

G M PstructGgoroutine的栈采取了动态扩容方式, 初始时仅为2KB,随着任务执行按需增长,最大可达1GB(64位机器最大是1G,32位机器最大是256M),且完全由golang自己的调度器 Go Scheduler 来调度。G并不直接绑定OS线程运行,而是由Gorout...

2018-09-30 14:03:00 424

转载 Docker入门

windows安装dockerwin10企业版对于win10企业版直接下载,https://www.docker.com/docker-windowswin7/win10家庭版安装docker-tollbox,https://www.docker.com/products/docker...

2017-10-10 10:13:00 136

转载 基于netty实现的socks5代理协议

基于netty实现的socks5代理协议socks5协议简介socks5协议是一个标准的代理协议,工作在网络的四层,理论上可以代理任意应用层协议。协议标准RFC1928,用户/密码鉴权标准RFC1929。协议的中文版本可以参考这里现有开源实现用的比较多的是linux下的ss5开源实现...

2016-12-28 17:28:00 899

转载 无头浏览器,从phantomjs到webkit4j

#一、从浏览器说起无头浏览器即headless browser,是一种没有界面的浏览器。既然是浏览器那么浏览器该有的东西它都应该有,只是看不到界面而已。##浏览器内核Webkit:目前最主流的浏览器内核,webkit是苹果公司开源的浏览器内核,其前身是KHTML。基于Webkit的浏...

2016-10-14 11:03:00 560

转载 教您使用DynamicGecco抓取JD全部商品信息

##关于gecco爬虫框架如果对gecco还没有了解可以参看一下gecco的github首页。gecco爬虫十分的简单易用。之前有一篇文章《教您使用java爬虫gecco抓取JD商品信息》,使用的是传统的注解方式,建议看这篇文章前先了解之前的文章。这里介绍一下DynamicGecco方式,比...

2016-07-18 11:22:00 287

转载 JAVA类加载机制以及如何自定义类加载器

##从双亲委派说起启动(Bootstrap)类加载器:是用本地代码实现的类装入器,它负责将 <Java_Runtime_Home>/lib下面的类库加载到内存中(比如rt.jar)。由于引导类加载器涉及到虚拟机本地实现细节,开发者无法直接获取到启动类加载器的引用,所以不允许直...

2016-06-15 18:35:00 405

转载 Gecco爬虫框架的线程和队列模型

##简述爬虫在抓取一个页面后一般有两个任务,一个是解析页面内容,一个是将需要继续抓取的url放入队列继续抓取。因此,当爬取的网页很多的情况下,待抓取url的管理也是爬虫框架需要解决的问题。本文主要说的是gecco爬虫框架的队列和线程模型。##线程和队列模型gecco的队列模型是两级队...

2016-06-08 10:22:00 178

转载 Gecco框架典型案例—闲逛APP

Gecco开源爬虫框架是2015年12月31日发布的,发布以来在易用性、可扩展性上得到了大家的肯定。目前在github上已经有230+的star,100+的fork。那么,Gecco这个新的爬虫框架在实际应用中的表现如何呢?为了让用户放心使用Gecco框架,Gecco团队发布了一款使用Gecc...

2016-05-31 10:02:00 91

转载 大话Android的消息机制(Handler、Looper、Message...)

#大话Android的消息机制(Handler、Looper、Message...)Android的开发很重要的一点就是理解它的消息机制,Android的消息机制涉及到概念不少,HandlerThread、Handler、Looper、MessageQueue、Message、Message...

2016-04-27 13:33:00 133

转载 java爬虫gecco的稳定性测试

#java爬虫gecco的稳定性测试最近对开源的java爬虫Gecco做了一个稳定性测试,测试环境:一台爬虫+web应用服务器,一台mongodb服务器。服务器配置很low,两台都是阿里云最低端的主机,1核+512内存。##单线程测试场景爬虫采用单线程,测试时间3×24小时,测试期间系统...

2016-03-28 11:42:00 153

转载 java爬虫gecco监控来了,不再裸奔

#java爬虫gecco监控来了,不再裸奔##爬虫为什么要监控gecco是一个十分简单易用的java开源爬虫框架,同时也一个款拥有很好扩展性的框架,目前已经有:结合spring的插件gecco-spring结合htmlunit的插件gecco-htmlunit结合reids的插件ge...

2016-03-21 10:42:00 252

转载 加密技术入门——从对称加密到CA证书

#加密技术入门——从对称加密到CA证书##几个基本概念对称加密对称加密是最传统的加密方式,简单说就是用一个密钥对原文加密,再用同样密钥对原文解密。对称加密的优点就是加密速度快,但是缺点也很明显,密钥的传递无法保障。常见的对称加密算法有DES、3DES、AES等非对称加密为了解...

2016-03-10 15:34:00 152

转载 java爬虫gecco支持htmlunit

#java爬虫gecco支持htmlunitjava爬虫gecco发布了1.0.5版本,增加了对htmlunit的支持。htmlunit是一款开源的java 页面分析工具,读取页面后,可以有效的使用htmlunit分析页面上的内容。项目可以模拟浏览器运行,被誉为java浏览器的开源实现。这个...

2016-03-07 10:30:00 160

转载 教您使用java爬虫gecco抓取JD全部商品信息(三)

##详情页抓取商品的基本信息抓取完成后,就要针对每个商品的详情页进行抓取,可以看到详情页的地址格式一般如下:http://item.jd.com/1861098.html。我们建立商品详情页的Bean:@Gecco(matchUrl="http://item.jd.com/{code}.h...

2016-02-26 11:16:00 200

转载 教您使用java爬虫gecco抓取JD全部商品信息(二)

##抓取商品列表信息AllSortPipeline已经将需要进一步抓取的商品列表信息的链接提取出来了,可以看到链接的格式是:http://list.jd.com/list.html?cat=9987,653,659&delivery=1&JL=4_10_0&go=0。...

2016-02-25 10:55:00 134

转载 教您使用java爬虫gecco抓取JD全部商品信息(一)

#教您使用java爬虫gecco抓取JD全部商品信息(一)##gecco爬虫如果对gecco还没有了解可以参看一下gecco的github首页。gecco爬虫十分的简单易用,JD全部商品信息的抓取9个类就能搞定。##JD网站的分析要抓取JD网站的全部商品信息,我们要先分析一下网站,京东...

2016-02-24 12:39:00 275

转载 GECCO(易用的轻量化的网络爬虫)

GECCO(易用的轻量化的网络爬虫)####初衷现在开发应用已经离不开爬虫,网络信息浩如烟海,对互联网的信息加以利用是如今所有应用程序都必须要掌握的技术。了解过现在的一些爬虫软件,python语言编写的爬虫框架scrapy得到了较为广泛的应用。gecco的设计和架构受到了scrapy一些...

2016-01-05 17:34:00 613

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除