搜索引擎
文章平均质量分 80
banny
自由职业者,程序爱好者,软件民工
展开
-
.NET中文分词
这两天因为需要就研究了.net环境下的中文分词,发现在目前的最高2.3.1Lucene.net版本下中文分词效果不好,他自带了一些分词器,均没有什么效果,出来单词切分,连JCK二分法都不提供,更谈不上基于词典的分词了。 下面我发俩段代码,前一段是我通过写一个二分法类来实现双字切分,后一段是通过调用肖波的分词器,自己又写了一个.net环境接口来实现基于词典的分词,以供大家学习之用……代码段一using System;using System.Collections.Generic;using原创 2010-12-03 23:10:00 · 1908 阅读 · 0 评论 -
soso预览功能的实现
<br /> 早看到有GOOGLE,有道,SOSO当我们搜索信息的时候他自带了个预览功能,一直好奇,今天就在SOSO搜了一下它的功能是如何实现的,看完了恍然大悟。<br /> 我们都知道网路蜘蛛会爬去网页信息,然后收藏你的网页。大部分人想的是我如何写一个万能的算法来运算得到任何一个规则不规则网页的核心信息。然而,我们知道根本就没有万能的。所以有了SEO,很多人来优化你的网页,希望你的蜘蛛能自动捕捉到他的信息。你看,原来是双方的利益。<br /> SOSO的实现就是基于SEO的思想原创 2011-03-16 14:45:00 · 984 阅读 · 0 评论 -
Lucene.net 实现数据库检索
因为工作的需要,不得不研究这一块。我首先考虑过去在字符串里通过LIKE来模糊匹配,这样当然可以,可是如果当量非常大的时候效率会降到多低你也是可以想到的,那么其他的办法就只有Lucene.net了。全文索引或者数据库索引,基本上都是两步走,第一步,建立索引,第二步,去搜索。建立索引原创 2011-07-14 16:34:39 · 1312 阅读 · 0 评论