SegWord项目介绍

   

    SegWord是一个开放项目[1],由其小组成员进行开发维护,稳定版本软件(包括程序与文档)将公开在网络上供参考与交流.下面是其简单介绍:

SegWord为一个分词系统,满足:
    1)分词
    2)获得义性分布
    3)词表自调整
    三个目的。 其中
 1)表明该系统可对汉语文本进行分词;这是这个系统的基本属性之一。但是,设计者认为不能为分词而分词,故本系统的研究重点为目的(2)和(3)。
 2)更广泛的看,分词的实质是“组合”,即由小结构组合为大结构并对结构的属性同时进行组合与变换。也就是说,分词不仅要给出词的分割,也应给出这种结构所对应的属性,例如词性,语义选项,未登录词属性等,统称为义性分布。这是后续处理的重点依据。
 3)分词依赖于一定的词表。但是,词表本身若由人来提供,总是存在一定的局限。考虑机器学习的运用,寻找词表自调整的方法与思路。这也是本项目的难点。

例如,对于输入:

          这是一种烤制猪排、羊排和牛排的方法。

希望经SegWord处理后,可以获得:

          这 是 [一种] [烤制] [猪排] [羊排] [牛排] [方法]

同时,各个词语单位的义性可以自动习得,如“烤制”是v,“牛排”是n,若词库中没有收录“羊排”,计算机可以习得这是一个和“牛排”近似的结构,经一定的策略可以对词库进行更新。

综上,本分词系统将是一个挑战,也是对中文信息处理进行突破的一种新尝试。



[1] (权利要求暂缺)

  • 1
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 13
    评论
评论 13
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值