基于感知器的中文分词算法

基于字标注的分词方法

基于字标注的方法的实际上是构词方法,即把分词过程视为字在一串字的序列中的标注问题。由于每个字在构造成词的时候,都有一个确定的位置。也即对于词中的一个字来说,它只能是词首字、词中字、词尾字或单字词一个身份。

以常用的4-tag标注系统为例,假如规定每个字最多有四个构词位置,即:

  • B(词首)
  • M(词中)
  • E(词尾)
  • S(单独成词)

这里的{B,M,E,S}

{B,M,E,S}就是4-tag标注系统中的四个位置标注。

 

那么对于任意一个已经过分词的句子,我们都可以用这4个标注组成的序列,表示原来的分词结果。例如:

分词结果:我/爱/北京/天安门/。/
字标注形式:我/S 爱/S 北/B 京/E 天/B 安/M 门/E 。/S

需要指出的是,这里的”字”不只限于汉字,它可以是文本中出现的任何一个字符。因为在真实中文语料中,不可避免地会包含一些数量的非汉字字符,这里所说的”字”也包括外文字母、阿拉伯数字和标点符号等字符。所有这些字符都是构词的基本单元。

基于字标注的方法,把分词从原本的切分问题转化成一个序列标注问题。对于一个含有n个字符的句子c_1^n=c_1 c_2 … c_n,可以用下面的公式表示分词原理:\sum {a+b}

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值