讲座笔记:中文分词基础介绍

今天听了一个分词讲座,较为基础的全面介绍以及工业上的一些实践。

整理了一下,尽量不写公式用文字说明。


分词是NLP中处理中文数据特有的一种方法,因为英文天然有空格隔开,所以分词主要针对的是中文文本数据。

定义
  • 分词指将一串汉字序列,按照一定规范,合理地切分成一个词序列的过程
        eg. 我/出门/了
难点:
  • 分词规范不统一(PKU,CTB,etc)
  • 歧义切分(交集型:结合/成 or 结/合成;组合型:学生会 or 学生/会;真歧义:一打啤酒 or 打人)
  • 未登录词(人名,地名,新词,etc),也叫OOV
评估标准
  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值