- 博客(2)
- 资源 (6)
- 问答 (1)
- 收藏
- 关注
原创 FuzzyQuery查询
FuzzyQuery查询(可以简单地识别两个相近的词语) 1.在FuzzyQuery类定义中定义了两个成员变量: private float minimumSimilarity; private int prefixLength; minimumSimilarity是最小相似度,取值范围为0.0~1.0,包含0.0但不包含1.0,默认值为0.5。prefixLength是前缀长度,默
2012-07-14 16:58:20 4536
原创 (重要)项目整合nutch索引与查询过程记录
1.索引过程 创建索引,采用的逻辑思路是:使用正则表达式,从nutch抓取流程产生的文件parse_txt中提取不同的内容,建立不同的索引域。该方法的好处是,对于论坛、新闻等不同的采集信息,可以产生不同的索引域。实例如下: parse_txt文档格式(以新闻为例): http://app.finance.ifeng.com/report/all.php 请选择研究机构
2012-07-04 16:46:51 1691
文本由hash值表示,如何相似性计算
2015-05-04
TA创建的收藏夹 TA关注的收藏夹
TA关注的人