今天听了一个分词讲座,较为基础的全面介绍以及工业上的一些实践。
整理了一下,尽量不写公式用文字说明。
分词是NLP中处理中文数据特有的一种方法,因为英文天然有空格隔开,所以分词主要针对的是中文文本数据。
定义
- 分词指将一串汉字序列,按照一定规范,合理地切分成一个词序列的过程
难点:
- 分词规范不统一(PKU,CTB,etc)
- 歧义切分(交集型:结合/成 or 结/合成;组合型:学生会 or 学生/会;真歧义:一打啤酒 or 打人)
- 未登录词(人名,地名,新词,etc),也叫OOV
今天听了一个分词讲座,较为基础的全面介绍以及工业上的一些实践。
整理了一下,尽量不写公式用文字说明。
分词是NLP中处理中文数据特有的一种方法,因为英文天然有空格隔开,所以分词主要针对的是中文文本数据。