中文分词 基于字标注法的分词

基于字标注法的分词

中文分词字标注通常有2-tag,4-tag和6-tag这几种方法,其中4-tag方法最为常用。标注集是依据汉字(其中也有少量的非汉字字符)在汉语词中的位置设计的。

1. 2-tag法
2-tag是一种最简单的标注方法,标注集合为{B,I},其将词首标记设计为B,而将词的其他位置标记设计为I。例如词语“重庆”的标注结果是“重/B 庆/I”,而“大学生”的标注结果为“大/B 学/I 生/I”
对于以下句子
迈向 充满 希望 的 新 世纪 —— 一九九八年 新年 讲话
使用2-tag(B,I)的标注结果为
迈/B向/I 充/B满/I 希/B望/I 的/B 新/B 世/B纪/I —/B—/I 一/B九/I九/I八/I年/I 新/B年/I 讲/B话/I

2.4-tag法
4-tag标注集合为{S,B,M,E},S表示单字为词,B表示词的首字,M表示词的中间字,E表示词的结尾字。对于以下句子
迈向 充满 希望 的 新 世纪 —— 一九九八年 新年 讲话
使用4-tag(S,B,M,E)的标注结果为
迈/B向/E 充/B满/E 希/B望/E 的/S 新/S 世/B纪/E —/B—/E 一/B九/M九/M八/M年/E 新/B年/E 讲/B话/E
参考我爱自然语言处理博客, python实现方法为

import codecs
import sys

def character_tagging(input_file, outp
  • 1
    点赞
  • 10
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值