2008年10月_caohao2008

12月 10月 04月 03月 01月

转载 Lucene Analyser包分析及自己写Analyser方法

Analysis包分析算法和数据结构分析:由于Analysis包比较简单,不详述了!算法:基于机械分词 1-gram,2-gram,HMM(如果使用ICTCLAS接口的话)数据结构:部分源码用到了Set ,HashTable,HashMap认真理解TokenLucene中的Analysis包专门用于完成对于索引文件的分词.Lucene中的Token是一个非常重要的概念.看一下其源码实现：publi

2008-10-29 09:58:00 1117

转载中文分词的introduction(zz)

关于亚洲语言的的切分词问题(Word Segment)对于中文来说，全文索引首先还要解决一个语言分析的问题，对于英文来说，语句中单词之间是天然通过空格分开的，但亚洲语言的中日韩文语句中的字是一个字挨一个，所有，首先要把语句中按“词”进行索引的话，这个词如何切分出来就是一个很大的问题。首先，肯定不能用单个字符作(si-gram)为索引单元，否则查“上海”时，不能让含有“海上”也匹配。

2008-10-29 09:21:00 1953

原创关于最近研究的关键词提取keyword extraction做的笔记

之前内容的整理要求：第一: 首先找出具有proposal性质的paper,归纳出经典的方法有哪些. 第二:我们如果想用的话,哪种更实用或者易于实现? 哪种在研究上更有意义. 第一，较好较全面地介绍keyword extraction的经典特征的文章《Finding Advertising Keywords on Web Pages》.基于概念的keywords提取，

2008-10-25 23:14:00 7501 1

原创本科毕业设计摘要--基于web的双语词对自动获取系统

Normal 0 7.8 磅 0 2 false false false MicrosoftInternetExplorer4 <!-- /* Font

2008-10-25 01:03:00 1218

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

转载 Lucene Analyser包分析及自己写Analyser方法

转载 中文分词的introduction(zz)

原创 关于最近研究的关键词提取keyword extraction做的笔记

原创 本科毕业设计摘要--基于web的双语词对自动获取系统

空空如也

空空如也

转载中文分词的introduction(zz)

原创关于最近研究的关键词提取keyword extraction做的笔记

原创本科毕业设计摘要--基于web的双语词对自动获取系统