nizaina_0
码龄14年
关注
提问 私信
  • 博客:40,033
    40,033
    总访问量
  • 6
    原创
  • 1,049,092
    排名
  • 7
    粉丝
  • 0
    铁粉
IP属地以运营商信息为准,境内显示到省(区、市),境外显示到国家(地区)
IP 属地:北京市
  • 加入CSDN时间: 2011-03-06
查看详细资料
个人成就
  • 获得8次点赞
  • 内容获得4次评论
  • 获得30次收藏
创作历程
  • 3篇
    2013年
  • 52篇
    2012年
成就勋章
TA的专栏
  • java
    14篇
  • nutch
    13篇
  • jsoup
    1篇
  • paoding
    1篇
  • c++
    4篇
  • linux
    11篇
  • Heritrix
    16篇
  • IKAnalyzer
    1篇
  • python
    2篇
  • 最近
  • 文章
  • 代码仓
  • 资源
  • 问答
  • 帖子
  • 视频
  • 课程
  • 关注/订阅/互动
  • 收藏
搜TA的内容
搜索 取消

Python创建类的时候,是否继承object问题

在python中,创建类可以这样:[html] view plaincopyclass A:        pass  也可以这样:[html] view plaincopyclass A(object):        pass  那么二者有什么区别和联系呢?看
转载
发布博客 2013.04.27 ·
651 阅读 ·
1 点赞 ·
0 评论 ·
0 收藏

[初学python]新类(new-style class)

类(class)也是对象在python之中,万物皆对象。类也是对象。“类的类”就被称为元类(即类是元类的实例)。正如类的实例的行为取决于类,元类的实例(类)的行为也取决于元类。new-style classes的由来new-style classes是python在2.2版本所加入的一个重要特性。所有的内建类型都是new-style classes。引入new-style clas
转载
发布博客 2013.04.27 ·
708 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

中文分词之Java实现使用IK Analyzer实现

IK Analyzer是基于lucene实现的分词开源框架,下载路径:http://code.google.com/p/ik-analyzer/downloads/list需要在项目中引入:IKAnalyzer.cfg.xmlIKAnalyzer2012.jarlucene-core-3.6.0.jarstopword.dic什么都不用改示例
转载
发布博客 2013.02.27 ·
511 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

java多线程读写同一个文件的代码

本文提供java多线程分别定时读写同一个文件的样例,其中两个线程,一个每分钟写入当前时间到指定文件,另一个线程读出每分钟新写的内容。使用简单的Thread.sleep技术实现定时package test.thread;import java.io.BufferedReader;import java.io.File;import java.io.FileReader;
转载
发布博客 2012.12.11 ·
752 阅读 ·
0 点赞 ·
0 评论 ·
1 收藏

HBase简介(很好的梳理资料)

一、 简介historystarted by chad walters and jim2006.11 G release paper on BigTable2007.2 inital HBase prototype created as Hadoop contrib2007.10 First useable Hbase2008.1 Hadoop
转载
发布博客 2012.11.20 ·
348 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

Heritrix源码分析(十五) 各种问题总结

开博客以及建立Heritrix 群有一段时间了(这里谢谢大家的关注),这篇博客将整理这段时间所遇到的问题.同时由于自己从今年5月份开始就不怎么接触Heritrix,很多东西开始遗忘(不过里面思想没忘),同时目前的工作也没有必要接触Heritrix,所以不可能向之前写博客那样从源码的角度去考虑了.这里就起个抛砖引玉的作用吧,希望能有点用.这篇博客会不断更新,如有其他问题,请留言......
转载
发布博客 2012.11.14 ·
345 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

Heritrix源码分析(十四) 如何让Heritrix不间断的抓取

近段时间在搞定Lucene的一些问题,所以Heritrix源码分析暂时告一段落。今天下午在群里有同学提到了Heritrix异常终止的问题以及让Heritrix不停的抓取(就是抓完一遍后载入种子继续抓取,目前他是写个定时器,定时检查Heritrix是否停止,如果停止了则重新初始化Heritrix,让Heritrix重新抓取,但这个方法就不可避免的会导致抓取重复URl,除非从recover.gz导入)
转载
发布博客 2012.11.14 ·
404 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

Heritrix源码分析(十三) Heritrix的控制中心(大脑)CrawlController(二)

本博客属原创文章,欢迎转载!转载请务必注明出处:http://guoyunsky.iteye.com/blog/650744     本博客已迁移到本人独立博客: http://www.yun5u.com/        上一篇博客主要介绍了CrawlController的各个属性,博客地址:http://guoyunsky.iteye.com/blog/650744 ,以
转载
发布博客 2012.11.14 ·
678 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

Heritrix源码分析(十二) Heritrix的控制中心(大脑)CrawlController(一)

本博客属原创文章,欢迎转载!转载请务必注明出处:http://guoyunsky.iteye.com/blog/650694       CrawlController的确是Heritrix的大脑,在Heritrix中拥有无上的权利!可以控制Heritrix的启动、暂停、停止,也定时进行数据统计、数据汇报和文件管理。同时CrawlController也基本上贯穿整个Heritr
转载
发布博客 2012.11.14 ·
335 阅读 ·
0 点赞 ·
0 评论 ·
1 收藏

Heritrix源码分析(十一) Heritrix中的URL--CandidateURI和CrawlURI以及如何增加自己的属性

本博客属原创文章,欢迎转载!转载请务必注明出处:http://guoyunsky.iteye.com/blog/649889        Url是爬虫的核心,因为爬虫就是依赖URL一层一层的抓取下去,最后完成整个抓取。Heritrix中的URL比较特殊,有以下继承关系(由于不对继承关系作介绍,所以这里就不画图了):          1)org.archive.crawl
转载
发布博客 2012.11.14 ·
353 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

Heritrix源码分析(十) Heritrix中的Http Status Code(Http状态码)

本博客属原创文章,欢迎转载!转载请务必注明出处:http://guoyunsky.iteye.com/blog/649737       以前在做Web开发的时候就接触过一些HttpStatus Code,比如404,500.后来接触Heritrix之后才知道HttpStatus Code竟然有如此之多。不一样的HttpStatus Code就代表不一样的Http状态,简单的如成功
转载
发布博客 2012.11.14 ·
539 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

Heritrix源码分析(九)

本博客属原创文章,欢迎转载!转载请务必注明出处:http://guoyunsky.iteye.com/blog/644396       前面说过Heritrix可以在某个抓取基础上(这里假设为A)继续抓取,因为Heritrix对每一个URL都会有相应的日志处理,同时还有checkpoint(备份中心)。所以只要通过A上的日志就可以完全按照该基础A继续抓取,不会重复抓取任何A抓过的
转载
发布博客 2012.11.14 ·
425 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

Heritrix源码分析(八) Heritrix8个处理器(Processor)介绍

本博客属原创文章,欢迎转载!转载请务必注明出处:http://guoyunsky.iteye.com/blog/643367       Heritrix采用多线程去抓取数据,每次运行基本都要经过以下8个处理器处理(种子URL、先决条件URL除外),如此形成一整个流程。下面就大概介绍下每个处理器的作用以及大概处理的步骤。以后分析源码的时候再细节分析.
转载
发布博客 2012.11.14 ·
283 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

Heritrix源码分析(七) Heritrix总体介绍

本博客属原创文章,欢迎转载!转载请务必注明出处:http://guoyunsky.iteye.com/blog/642794        本博客已迁移到本人独立博客: http://www.yun5u.com/         欢迎加入Heritrix群(QQ):109148319,10447185  , Lucene/Solr群(QQ) :  118972724
转载
发布博客 2012.11.14 ·
341 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

Heritrix源码分析(六) Heritrix的文件结构分析

本博客属原创文章,欢迎转载!转载请务必注明出处:http://guoyunsky.iteye.com/blog/642618         每通过Heritrix运行一次抓取后,发现在该Job目录下就会有很多文件。这里说明下每个文件的作用,同时更主要介绍它的日志文件,因为我们可以通过日志文件发现Heritrix的抓取情况。首先贴个图
转载
发布博客 2012.11.14 ·
464 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

Heritrix源码分析(五) 如何让Heritrix在Ecplise等IDE下编程启动

本博客属原创文章,欢迎转载!转载请务必注明出处:http://guoyunsky.iteye.com/blog/642550       在Heritrix注释里说Heritrix有三种启动方式,但我感觉只有两种:一种是通过tomcat或者JBOSS或者Jetty等Web容器,还有一种自然就是不通过Web直接编程运行。由于第二种方式更适合调试、研究代码,所以
转载
发布博客 2012.11.14 ·
452 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

Heritrix源码分析(四) 各个类说明(二)

9.org.archive.crawler.fetcher序号类说明1FetchDNS获取DNS数据,如IP2FetchFTP获取FTP数据3FetchHTTP获取HTTP数据4HeritrixHttpMethodRetryHandlerHTTP重试处理器,重新去连接HTTP
转载
发布博客 2012.11.14 ·
494 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

Heritrix源码分析(四) 各个类说明(一)

本博客属原创文章,欢迎转载!转载请务必注明出处:http://guoyunsky.iteye.com/blog/630347    本博客已迁移到本人独立博客: http://www.yun5u.com/    欢迎加入Heritrix群(QQ):109148319,10447185  , Lucene/Solr群(QQ) :  118972724
转载
发布博客 2012.11.14 ·
498 阅读 ·
0 点赞 ·
0 评论 ·
1 收藏

Heritrix源码分析(三) 修改配置文件order.xml加快你的抓取速度

本博客属原创文章,欢迎转载!转载请务必注明出处:http://guoyunsky.iteye.com/blog/629891      本博客已迁移到本人独立博客: http://www.yun5u.com/      Heritrix的order.xml分了很多组件,可以灵活的配置各个抓取参数。但很多人都关心如何使得抓取更快更久更多,这里首先从Heritrix
转载
发布博客 2012.11.14 ·
392 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

Heritrix源码分析(二) 配置文件order.xml介绍

本博客属原创文章,欢迎转载!转载请务必注明出处:http://guoyunsky.iteye.com/blog/613412     本博客已迁移到本人独立博客: http://www.yun5u.com/      order.xml是整个Heritrix的核心,里面的每个一个配置都关系到Heritrix的运行情况,没读源码之前我只能从有限的渠道去获知这些配置的运用.读完之后才知
转载
发布博客 2012.11.14 ·
663 阅读 ·
0 点赞 ·
0 评论 ·
1 收藏
加载更多