2006年11月_MinistoneNap

12月 11月

原创统计自然语言处理学习笔记(1)

自然语言处理专业英语学习和研究中文分词问题,引起了我对中文分词的极大兴趣,甚至到了无法自拔的地步.我非常希望,能够通过自己的学习和研究,自己开发一套高性能的中文处理系统.但越学习越深入,越发现自己的知识的缺乏.熟练掌握一门编程语言是最基本的,另外涉及到概率论、统计和语言学、汉字编码等诸多复杂问题。因为这些问题同时也是国际上的热点问题，在学习这些内容时不可避免的要遇到一些英语问题。本

2006-11-29 14:13:00 1631

原创 SegWord 的进展--词库结构

词库结构:关于trie和hash的问题看到词库的研究发展已到了一定的水平,感到很高兴.在网上看到了几个帖子,是关于词库结构的讨论,我个人觉得很有意思,进一步研究,有可能取得不错的成果,现将原帖及其讨论转载如下:percylee的原帖:目前对于词库结构的建立,一种普遍的倾向是使用trie结构,该结构使得对词库中词语的访问速度和词库规模无关(若词语的长度为n,则查询该词语的复杂度为

2006-11-25 18:58:00 1314

转载编写简单的中文分词程序

原作者: accesine一、词库词库大概有5万多词语(google能搜到,类似的词库都能用),我摘要如下:地区 82重要 81新华社 80技术 80会议 80自己 79干部 78职工 78群众 77没有 77今天 76同志 76部门 75加强 75组织 75第一列是词,第二列是权重

2006-11-23 18:57:00 2147 1

转载中文分词技术

原作者:web_soa一、为什么要进行中文分词？词是最小的能够独立活动的有意义的语言成分，英文单词之间是以空格作为自然分界符的，而汉语是以字为基本的书写单位，词语之间没有明显的区分标记，因此，中文词语分析是中文信息处理的基础与关键。Lucene中对中文的处理是基于自动切分的单字切分，或者二元切分。除此之外，还有最大切分（包括向前、向后、以及前后相结合）、最少切分、

2006-11-23 18:35:00 2370

转载中文搜索引擎技术揭密：系统架构

中文搜索引擎技术揭密：系统架构作者Winter首发于e800.com.cn 【e800.com.cn 编者按】互联网发展的今天，一方面离不开其开放、共享的特性带给人们的全新体验，另一方面也离不开数以亿计的为其提供各类丰富内容的网络节点。互联网被普及前，人们查阅资料第一想到的便是拥有大量书籍资料的图书馆，到了今天你怎么想？或许今天的很多人都会选择一种更方便、快捷、全面、准确的方式——

2006-11-23 15:38:00 1076

转载中文搜索引擎技术揭密：网络蜘蛛

中文搜索引擎技术揭密：网络蜘蛛作者Winter 首发于e800.com.cn 【e800.com.cn 编者按】随着搜索经济的崛起，人们开始越加关注全球各大搜索引擎的性能、技术和日流量。作为企业，会根据搜索引擎的知名度以及日流量来选择是否要投放广告等；作为普通网民，会根据搜索引擎的性能和技术来选择自己喜欢的引擎查找资料；作为学者，会把有代表性的搜索引擎作为研究对象……而作为一个

2006-11-23 15:29:00 1091

转载规范之细部内容

规范之细部内容 1 分词规范 1.1 定义:具有独立意义,且扮演特定语法功能的字串. 根据定义,动词,名词,副词,定词,量词,介词,方位词,连接词,语助词,感叹词皆可依类一一断开.这些基本词类中,前五者,尤其是动词和名词的判定较复杂.原因有三:一,动词和名词皆另有词组形式,便有区分复合词和词组的问题.另外副词,定词,和量词也有类似的困扰.二,动词,名词是个开放性词集,随时都有新词产生.三

2006-11-23 15:15:00 1297

原创「资讯处理用中文分词规范」设计理念及规范内容

「资讯处理用中文分词规范」设计理念及规范内容一摘要「资讯处理用中文分词规范」有下列两个突破1)提出分级的观念及确立信,达,雅三级的标准.最容易达到的信级订为基本资料交换的标准;技术上较难,但自动分词程式仍可达到的达级作机器翻译,资讯检索等自然语言处理的标准;至於最需要人工分词才能达到的雅级则视为电脑处理,理解中文之最高目标.(2)把分词规范分成不变核心(分词单位

2006-11-23 15:10:00 1221

转载中文搜索引擎技术揭密：中文分词

中文搜索引擎技术揭密：中文分词作者Winter首发于:e800.com.cn 前言信息的飞速增长，使搜索引擎成为人们查找信息的首选工具，Google、百度、yisou、中搜等大型搜索引擎一直人们讨论的话题。随着搜索市场价值的不断增加，越来越多的公司开发出自己的搜索引擎，阿里巴巴的商机搜索、8848的购物搜索等也陆续面世，自然，搜索引擎技术也成为技术人员关注的热点。搜索引擎

2006-11-23 14:56:00 890

转载中文分词和搜索引擎

中文分词和搜索引擎（二）作者：Winter 工程师中文分词的算法中文分词技术的研究，已经有几十年的历史了，在20世纪80年代，我国就有人开始研究如何用计算机来自动分词。如何让机器去识别语言中最小的语意单位，不是一件很容易的事情。如何进行分词？对于程序员来说，最容易想到的办法是，用一个大词典，把所有的词都存入词典中，扫描输入的文本，查找所有可能的词，然后看哪个词可以做为输出。例

2006-11-23 14:46:00 1050

转载初识lucene（2）

Lucene基础排序算法:score_d = sum_t(tf_q * idf_t / norm_q * tf_d * idf_t / norm_dt_t)score_d: Document(d) 的得分sum_t: Term(t) 的总和tf_q: 查询中 t 的频度的平方根tf_q: d 中 t 的频度的平方根idf_t: log(numDocs/docFreq_t + 1) + 1.

2006-11-18 17:14:00 976

原创初识lucene(1)

lucene的下载和测试以前上过信息检索的课程,用的是教材Modern Information Retrieval的影印版.这本教材相当经典,讲述了许多非常经典的理论与方法,特别是老师独特的上课方式,以及老师本身对于信息检索领域的热情(用她自己的话说是very enjoy),这让我也对信息检索产生了浓厚的兴趣,对信息检索的各种模型也都较熟悉.然而,虽然日常用到了各种搜索引擎,但是并

2006-11-17 14:55:00 1885 3