自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(16)
  • 资源 (3)
  • 收藏
  • 关注

原创 tomcat8 下配置solr4.9

1、从官网下载"solr-core-4.9.0.jar"并解压

2014-07-31 22:38:20 636

原创 IKAnalyzer2012FF + Lucene4.9 TokenStream contract violation: reset()/close() call missing

异常信息如下:

2014-07-30 11:22:40 4707

转载 heritrix 在Prefetcher中取消robots.txt的限制

Robots.txt是一种专门用于搜索引擎网 络爬虫的文件,当构造一个网站时,如果作者希望该网站的内容被搜索引擎收录,就可以在网站中创建一个纯文本文件robots.txt,在这个文件中,声明 该网站不想被robot访问的部分。这样,该网站的部分或全部内容就可以不被搜索引擎收录了,或者指定搜索引擎只收录指定的内容。Heritrix在其说明文档中,表明它是一个 完全遵守robots.txt协议

2014-07-24 23:16:21 676

原创 希尔排序

package com.qirui.algorithm.sort;/** * @Description: 希尔排序 * 希尔排序是插入排序的一种更高效的改进版本,它是基于插入排序的以下两点性质而提出改进方法的: * 1、插入排序在对几乎已经排序好的序列操作时,效率高,可以达到线性排序的效率。 * 2、插入排序一般来说是低效的,因为它每次只能移动一位。 * * 希尔排序是将待

2014-07-23 17:19:03 917

原创 ELFHash 算法

public long ELFHash(String str) { long hash = 0; long x = 0; for (int i = 0; i < str.length(); i++) { hash = (hash << 4) + str.charAt(i); // if ((x

2014-07-22 23:02:57 965

原创 Heritrix 的优化

1、首先修改heritrix的默认抓取策略Heritrix的默认抓取策略为HostnameQueueAssignmentPolicy,而这个策略是用hostname作为key的,因此一个域名下的所有连接都都会被放到同一个线程中去,这样就会造成在抓取时一般只有一个线程在运行(通常我们都是抓取特定网站上的内容)。这种方式在很大程度上可以解决广域网中信息抓取时队列的键值问题。但是,它对于某个单独网站

2014-07-22 22:37:03 1226

原创 插入排序

package com.qirui.algorithm.sort;/** * @Description: 插入排序 * 通过构建一个有序序列(通常将第一个元素看做一个有序的序列),对于未排序的元素,在已排序的序列中从后向前扫描, * 找到相应的位置插入。 * * * 一般来说,插入排序都采用in-place在数组上实现。具体算法描述如下: * 1、从第一个元素开始,该元

2014-07-22 18:00:28 430

转载 IE Firefox在css中的差别 (部分)

1、单位问题 问题:任何距离的数值ie可以不加单位,ff必须要求写单位(0除外) 解决:写全单位如padding:0px; 2、水平居中 问题:div里的内容,ie默认为center,而ff默认left 解决:mairgin:0px auto; 3、高度问题 问题:如果设置了一个DIV的高度,当DIV里实际内容大于所设高度,ie会自动拉伸以适应DIV容器大小

2014-07-22 13:33:32 459

转载 IE和firefox中的宽度显示差异

WEB开发中,在做浏览器兼容性测试时常常发现IE和FF/Chrome的宽度不同,在IE中正常的宽度到了FF或Chrome中就变宽撑大了,界面就变得很奇怪。因为界面相对属于小问题就一直没有仔细研究,稍微改改看上去差得不多就算了。今天终于查了一下原因,顿悟~     FF是按W3C的标准执行,标准CSS中所指的width的宽度只包含容器中内容的宽度。而Internet Explorer中的wi

2014-07-22 11:48:13 1569 1

原创 选择排序

package com.qirui.algorithm.sort;/** * @Description: 选择排序 * 通过一次遍历,选出最小的元素和第一个位置的元素交换,如果最小的元素位于第一个位置,那就和自己交换, * 通过第二次遍历,在剩下的元素中找到最小的元素,和第二个元素交换,依次循环上述操作,直到最后一个元素。 * @author houqirui * @d

2014-07-22 11:33:26 385

原创 冒泡排序

package com.qirui.algorithm.sort;/**    * @Description: 冒泡排序 * 将相邻两个元素比较和调整,使较大的向下沉,较小的向上浮 * @author houqirui    * @date 2014-7-16 上午11:20:36  */public class BubbleSort {public st

2014-07-22 11:28:52 488

原创 heritrix 在myeclipse中的配置

1、下载解压首先到官网上下载最新版本的Heritrix,包括其源码,下载地址为:http://sourceforge.net/projects/archive-crawler/files/archive-crawler%20%28heritrix%201.x%29/,我使用的是1.14.4版本:heritrix-1.14.4.zip,heritrix-1.14.4-src.zip。

2014-07-22 07:06:20 625

转载 java插入clob字段

1)clob类型的数据不能直接insert,要先通过empty_clob()方法给它分配一个locator(同理,blob的用empty_blob()函数分配locator).然后把它select出来(此时它当然没有数据,但结果集不是空的),得到一个Clob的对象,修改该对象的内容让它满足我们的需要,再通过update方法更新该行记录. 2) 通过select修改含lob类型的记录时一定要

2014-07-16 17:17:26 859

转载 JS的 image onload事件

关于 Image 对象 onload 事件。 想获取的是 image 的 宽高值。所以用 onload 方法。另外是获取的远程图片。 但IE在第二次显示图片的时候,总是不走 onload 方法。代码: var img = new Image();img.src = "loading.gif";img.onload = function(){var iheight

2014-07-15 15:34:01 2138

原创 Lucene 评分机制

在检索文档时,lucene会计算文档与查询语句之间的相似程度,以打分的形式来表示,分值越高,相似度和匹配度越高。计算分值的公式如下:score(q,d)   =   coord(q,d) ·  queryNorm(q) ·∑( tf(t in d) ·  idf(t)2 ·  boost(t.field in d) ·  lengthNorm(t.fie

2014-07-13 10:33:40 660

转载 JAVA IO 设计模式彻底分析

一。引子(概括地介绍Java的IO)  无论是哪种编程语言,输入跟输出都是重要的一部分,Java也不例外,而且Java将输入/输出的功能和使用范畴做了很大的扩充。它采用了流的 机制来实现输入/输出,所谓流,就是数据的有序排列,而流可以是从某个源(称为流源或Source of Stream)出来,到某个目的地(称为流汇或Sink of Stream)去的。由流的方向,可以分成输入流和输出流,

2014-07-11 17:41:15 540

快学Scala 中文版 带目录

快学Scala 中文版 带目录

2015-07-28

最近整理的中文停用词列表(1704个)

最近整理的中文停用词列表

2014-08-19

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除