![](https://img-blog.csdnimg.cn/20201014180756928.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
搜索
huangxin100
这个作者很懒,什么都没留下…
展开
-
中文机械分词算法入门
中文机械分词算法入门2007/06/04 作者:Sunny from Hour41 (www.hour41.com ) 这几天因为要负责新的搜索系统中的分词,所以看了一些入门级的分词算法。其中主要是机械分词方法,趁这个机会总结下。 机械分词方法又叫基于字符串匹配的分词方法,它是按照一定的策略将待分析的汉字串与一个“充分大的”机器词典中的词条进行区配,若在词典中找到某个字符串,则匹配成功(识别...2007-08-31 01:58:33 · 706 阅读 · 0 评论 -
搜索技术总结整理
搜索技术总结整理 2006/12/05 作者:Hontlong from Hour41 (www.hour41.com) 学习搜索有一段时间了,为了复习巩固和提高,特把学习的结果总结一下。本文章搜索只特指小型搜索系统。之所以特指是小型系统,是因为大型小型搜索系统虽然整体处理过程大体相似,但整体架构和要处理的数据量和响应速度是密切相关的,百万量级的和十亿量级的搜索系统是不可同日而语的。 搜索系...2007-08-31 02:06:35 · 214 阅读 · 0 评论 -
双数组trie树的基本构造及简单优化
双数组trie树的基本构造及简单优化 2007/06/04 作者:Sunny from Hour41 (www.hour41.com ) 一、 基本构造 Trie树是搜索树的一种,来自英文单词"Retrieval"的简写,可以建立有效的数据检索组织结构,是中文匹配分词算法中词典的一种常见实现。它本质上是一个确定的有限状态自动机(DFA),每个节点代表自动机的一个状态。在词典中这此状态包括"词...2007-08-31 02:07:58 · 182 阅读 · 0 评论 -
中文搜索引擎之文本分类
中文搜索引擎之文本分类 2007/06/04 作者:Kelvin from Hour41 (www.hour41.com ) 文本分类就是根据预先定义的主题类别,按照一定的规则将文档集合中未知类别的文本自动确定一个类别,涉及数据挖掘、计算语义学、信息学、人工智能等个学科,是自然语言处理的一个重要应用领域。 目前,越来越多的统计分类方法、机器学习方法、数据挖掘技术和其它的新技术被应用到文本自...2007-08-31 02:12:20 · 477 阅读 · 0 评论