SegWord项目介绍

最新推荐文章于 2023-03-02 19:51:20 发布

cs_

最新推荐文章于 2023-03-02 19:51:20 发布

阅读量5.6k

点赞数 1

分类专栏： SegWord 文章标签：文档网络

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/cs_/article/details/592971

版权

SegWord 专栏收录该内容

9 篇文章 0 订阅

订阅专栏

SegWord是一个开放项目[1],由其小组成员进行开发维护,稳定版本软件(包括程序与文档)将公开在网络上供参考与交流.下面是其简单介绍:

SegWord为一个分词系统，满足：
    （1）分词
    （2）获得义性分布
    （3）词表自调整
    三个目的。其中
（1）表明该系统可对汉语文本进行分词；这是这个系统的基本属性之一。但是，设计者认为不能为分词而分词，故本系统的研究重点为目的（2）和（3）。
（2）更广泛的看，分词的实质是“组合”，即由小结构组合为大结构并对结构的属性同时进行组合与变换。也就是说，分词不仅要给出词的分割，也应给出这种结构所对应的属性，例如词性，语义选项，未登录词属性等，统称为义性分布。这是后续处理的重点依据。
（3）分词依赖于一定的词表。但是，词表本身若由人来提供，总是存在一定的局限。考虑机器学习的运用，寻找词表自调整的方法与思路。这也是本项目的难点。

例如，对于输入：

这是一种烤制猪排、羊排和牛排的方法。

希望经SegWord处理后，可以获得：

这是 [一种] [烤制] [猪排] 、 [羊排] 和 [牛排] 的 [方法]

同时，各个词语单位的义性可以自动习得，如“烤制”是v，“牛排”是n，若词库中没有收录“羊排”，计算机可以习得这是一个和“牛排”近似的结构，经一定的策略可以对词库进行更新。

综上，本分词系统将是一个挑战，也是对中文信息处理进行突破的一种新尝试。

[1] （权利要求暂缺）

关注

1
点赞
踩
1

收藏

觉得还不错? 一键收藏
13
评论
SegWord项目介绍

SegWord是一个开放项目[1],由其小组成员进行开发维护,稳定版本软件(包括程序与文档)将公开在网络上供参考与交流.下面是其简单介绍:SegWord为一个分词系统，满足：（1）分词（2）获得义性分布（3）词表自调整三个目的。其中（1）表明该系统可对汉语文本进行分词；这是这个系统的基本属性之一。但是，设计者认为不能为分词而分词，故本系统的
复制链接

扫一扫

专栏目录

评论 13

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。