SegWord
文章平均质量分 59
cs_
这个作者很懒,什么都没留下…
展开
-
SegWord项目介绍
SegWord是一个开放项目[1],由其小组成员进行开发维护,稳定版本软件(包括程序与文档)将公开在网络上供参考与交流.下面是其简单介绍:SegWord为一个分词系统,满足: (1)分词 (2)获得义性分布 (3)词表自调整 三个目的。 其中 (1)表明该系统可对汉语文本进行分词;这是这个系统的基本属性之一。但是,设计者认为不能为分词而分词,故本系统的原创 2006-02-06 16:37:00 · 5632 阅读 · 13 评论 -
SegWord中需要讨论的问题(1)
项目SegWord中存在许多问题,简要叙述如下,供以后讨论参考。首先需要说明的是,三个既定目标是不能在同一个阶段内完成的,否则任务将过于艰巨,不利于项目的开展。对于传统的分词算法,一般有两大步骤,一是分词,二是词性标注,其中的难点在于歧义的发现与处理,未登录词的识别,新词发现以及兼类处理。这些也同样是SegWord所面对的问题,只不过由于其目标略有不同,在SegWord中的处理时机需要仔原创 2006-02-20 17:07:00 · 1678 阅读 · 0 评论 -
SegWord::UString的待完全测试代码
l UString.h#ifndef __USTRING_H__#define __USTRING_H__ #include /** 文件名: UString.h* 创建日期: 2005-12-12* 创建者: Percy Lee* 修改列表:** 说明:* Unicode string class for c++(原创 2006-03-02 14:22:00 · 1563 阅读 · 0 评论 -
项目SegWord文件目录说明
项目SegWord所有文档与源代码在一个文件目录root下.为便于协作,对root目录中的子目录做如下说明: 目录结构: . /root . /bin . /lib . /doc . /include . /system原创 2006-03-02 14:09:00 · 1553 阅读 · 0 评论 -
SegWord::IHash
#ifndef __IHASH_H__#define __IHASH_H__#include "../../include/UString.h"using namespace UStr; /* * IHash接口及其默认实现:ELFhash算法(默认hash算法)***************************************************原创 2006-05-22 13:04:00 · 1212 阅读 · 0 评论 -
SegWord讨论大本营
项目已经启动,朋友们一起努力: http://groups.google.com/group/SegWord原创 2006-07-07 13:27:00 · 1630 阅读 · 0 评论 -
基于最大熵的演化分词算法MEEA的构想
1、ICTCLAS在线分词测试baidu知道用例2007-1-30在baidu知道首页上随机拷贝的问题例子,使用ICTCLAS在线分词的测试结果为: 三峡水电站的主要用途是用来干什么的?听不到回音的距离应该是多少推荐好看的小说(类似红颜乱,且试天下的小说)山好水好人不如王牌人好大家好!想更的学习photoshop图像处理,怎样学习才会更有技巧?初二数学人教版试题原创 2007-02-05 09:09:00 · 3254 阅读 · 0 评论