- 博客(4)
- 收藏
- 关注
转载 Lucene Analyser包分析及自己写Analyser方法
Analysis包分析算法和数据结构分析:由于Analysis包比较简单,不详述了!算法:基于机械分词 1-gram,2-gram,HMM(如果使用ICTCLAS接口的话)数据结构:部分源码用到了Set ,HashTable,HashMap认真理解TokenLucene中的Analysis包专门用于完成对于索引文件的分词.Lucene中的Token是一个非常重要的概念.看一下其源码实现:publi
2008-10-29 09:58:00 1117
转载 中文分词的introduction(zz)
关于亚洲语言的的切分词问题(Word Segment)对于中文来说,全文索引首先还要解决一个语言分析的问题,对于英文来说,语句中单词之间是天然通过空格分开的,但亚洲语言的中日韩文语句中的字是一个字挨一个,所有,首先要把语句中按“词”进行索引的话,这个词如何切分出来就是一个很大的问题。首先,肯定不能用单个字符作(si-gram)为索引单元,否则查“上海”时,不能让含有“海上”也匹配。
2008-10-29 09:21:00 1953
原创 关于最近研究的关键词提取keyword extraction做的笔记
之前内容的整理要求:第一: 首先找出具有proposal性质的paper,归纳出经典的方法有哪些. 第二:我们如果想用的话,哪种更实用或者易于实现? 哪种在研究上更有意义. 第一, 较好较全面地介绍keyword extraction的经典特征的文章《Finding Advertising Keywords on Web Pages》.基于概念的keywords提取,
2008-10-25 23:14:00 7501 1
原创 本科毕业设计摘要--基于web的双语词对自动获取系统
Normal 0 7.8 磅 0 2 false false false MicrosoftInternetExplorer4 <!-- /* Font
2008-10-25 01:03:00 1218
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人