java
leibnitz09
这个作者很懒,什么都没留下…
展开
-
nutch对某个contentType文档进行解析的流程
nutch支持对诸多的文档类型作了解析处理,包括html,xml,zip,pdf等,其中好像从1.1以后提供了tika的进一步封装处理。 1.说明在fetch的output()时会发现,它调用了ParseUtil的parse()进行处理。nutch执行解析时有个优先级原则,即parse-plugins.xml是可选的,如果存在,则使用,不存在的话直接从plugin.includ...原创 2011-09-04 12:48:58 · 114 阅读 · 0 评论 -
some new features in jdk7 and jdk8
jdk7和8的一些新特性介绍JAVA 8 新特性详解原创 2015-04-02 17:16:40 · 81 阅读 · 0 评论 -
The History of Java Technology
Since 1995, Java has changed our world . . . and our expectations..Today, with technology such a part of our daily lives, we take it for granted that we can be connected and access applications a...原创 2014-08-14 11:19:56 · 293 阅读 · 0 评论 -
再议jvm调优技巧
一.调优原则1.heap size尽量不太大,合适就好.否则回收(mark)时间会偏长;new gen同理e.g.2013-10-13T23:01:02.707+0800: 104720.333: [GC [1 CMS-initial-mark: 3826274K(6291456K)] 4924537K(8126464K), 0.6017570 secs] [Times: use...2013-10-11 10:43:48 · 197 阅读 · 0 评论 -
java nio tutorial
a simple,easily understandable tutorial found hereJava NIO Tutorial written by jakob原创 2015-01-09 17:25:29 · 83 阅读 · 0 评论 -
jvm crash - jlong_disjoint_arraycopy
when we are accessing some io resources,like writing to disk,there may be a java jvm crash by below: ## A fatal error has been detected by the Java Runtime Environment:## SIGBUS (0x7) a...2014-05-21 15:56:35 · 1414 阅读 · 0 评论 -
3。hbase rpc/ipc/proxy通信机制
一。RPC VS IPC (relationship/difference)IPC inter-process communicationas [1] said ,there are two types ipc by now:1.LPC like RPC,but this is a 'epitome' of it,that is in general it will be us...2013-07-15 15:12:20 · 568 阅读 · 0 评论 -
How to deal with concurrent mode failures in the Hotspot JVM
When using the Concurrent Low Pause or Concurrent Mark Sweep Garbage collector with a Sun Hotspot JVM, you may observe the following "concurrent mode failures" errors in your GC logs or stderr:(co...原创 2013-04-12 13:56:22 · 105 阅读 · 0 评论 -
jvm 参数调优
首先,保留几张有用的收集算法图(JDK5.0中JVM堆模型、GC垃圾收集详细解析 .)分代/堆模型 基本GC收集算法复制 标记清除(mark-sweep) 标记整理(mark-sweep-compact) GC收集器类型古老的串行收集器(Serial Collector) 吞吐量优先的并行收集器(Throughp...原创 2013-03-19 16:19:20 · 264 阅读 · 0 评论 -
nutch 发布时要注意的问题
在利用Nutch自身的ant打包后,如果对整个项目不太清楚结构,往往出现很多奇怪的问题。这里就是遇到了。。。 *打job后,留在该项目中进行测试时,出现:org.apache.nutch.plugin.PluginRuntimeException: java.lang.ClassNotFoundException: org.apache.nutch.net.urlnormalizer....2011-12-04 23:40:51 · 93 阅读 · 0 评论 -
nutch analyzers 使用机制
一。索引时analyzer我们知道,在Indexer进行index时,是利用IndexOutputFormat进行rewrite的,其中write filters有一个:LuceneWriter。它是这样处理的:*如果crawl过程index filters有添加lang field,那么在此时是依据此它进行retrieve plugin related NutchAnalyzer...2011-07-31 14:35:35 · 101 阅读 · 0 评论 -
nutch 分布式索引(爬虫)
其实,全网抓取比intranet区别再于, 前者提供了较为多的urls入口, 没有使用crawl-urlfilter.txt 中并没有限制哪些url,(如果没有使用crawl命令) 并通过逐步处理的方式得以可按的局面; 在1.3,还有此区别, 如默认的fetcher.parse是false,使得每次fetch后必须有一个parse step,刚开始老是看...2011-10-19 00:15:26 · 166 阅读 · 0 评论 -
nutch 分布式搜索-cluster-hdfs index
此过程也很简单,步骤是:a.put the indexes to hdfs respectively;b.let search server three xml files related with hdfs,core,mapred -site.xml be same with the hadoop-slave's respectively;c.retrieve the path of...2011-10-17 02:14:05 · 79 阅读 · 0 评论 -
nutch 分布式搜索-cluster-local index
此过程亦相当简单,只是修改一下search-servers.txt即可。 seestandalone mode2011-10-17 02:13:39 · 76 阅读 · 0 评论 -
nutch 分布式搜索-standalone mode
本地模式篇,其实就是相当 于之前图中的虚线部分。詳細如下图: 安装步骤:1.search client that acts as a web container to make requests.2.search servers which supply services to feed ./bin/nutch server <port> <...2011-10-17 01:47:41 · 70 阅读 · 0 评论 -
lucene boost 的誤解
之前一直以为,无论在index或搜索时,如果boost为0,結果将不会得出。但今天经过测试,不是这样的。来看它的评分公式吧,其中一项就是 queryNorm(q) ,它是这样计算的: 1/sumOfSquaredWeights½ 但这样可能遇到分母为0的情况,于是在Query中的weight()中作了修正 :如果是infinite则为1. 不过,由此我又想到了...2011-10-06 16:56:56 · 159 阅读 · 0 评论 -
nutch对某个contentType文档进行解析的流程--html
经过上一遍contentType流程介绍后,现在进入具体的针对html文档的解析过程介绍。 在ParseUtil#getParse()中, 当选定一种parser( 这里是HtmlParser)后,便 进入到对应 的getParse方法中。大概步骤是:1.猜测页面的最佳编码;2.解析页面中特定的meta,如robots,base等元数据;3.检查是否可以index或...2011-09-22 23:44:59 · 70 阅读 · 0 评论 -
java-jvm usage analytics
as mentioned in title,i will make analytics between two tomcats which both running a solr app. 1.cases comparison2.analytics 1.cases comparisontomcatXmsXmxXmnNewRatioSur...2015-07-15 12:28:46 · 129 阅读 · 0 评论