自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(4)
  • 收藏
  • 关注

转载 Lucene Analyser包分析及自己写Analyser方法

Analysis包分析算法和数据结构分析:由于Analysis包比较简单,不详述了!算法:基于机械分词 1-gram,2-gram,HMM(如果使用ICTCLAS接口的话)数据结构:部分源码用到了Set ,HashTable,HashMap认真理解TokenLucene中的Analysis包专门用于完成对于索引文件的分词.Lucene中的Token是一个非常重要的概念.看一下其源码实现:publi

2008-10-29 09:58:00 1117

转载 中文分词的introduction(zz)

关于亚洲语言的的切分词问题(Word Segment)对于中文来说,全文索引首先还要解决一个语言分析的问题,对于英文来说,语句中单词之间是天然通过空格分开的,但亚洲语言的中日韩文语句中的字是一个字挨一个,所有,首先要把语句中按“词”进行索引的话,这个词如何切分出来就是一个很大的问题。首先,肯定不能用单个字符作(si-gram)为索引单元,否则查“上海”时,不能让含有“海上”也匹配。

2008-10-29 09:21:00 1953

原创 关于最近研究的关键词提取keyword extraction做的笔记

之前内容的整理要求:第一: 首先找出具有proposal性质的paper,归纳出经典的方法有哪些. 第二:我们如果想用的话,哪种更实用或者易于实现? 哪种在研究上更有意义. 第一,      较好较全面地介绍keyword extraction的经典特征的文章《Finding Advertising Keywords on Web Pages》.基于概念的keywords提取,

2008-10-25 23:14:00 7501 1

原创 本科毕业设计摘要--基于web的双语词对自动获取系统

Normal 0 7.8 磅 0 2 false false false MicrosoftInternetExplorer4 <!-- /* Font

2008-10-25 01:03:00 1218

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除