今天听了一个分词讲座,较为基础的全面介绍以及工业上的一些实践。
整理了一下,尽量不写公式用文字说明。
分词是NLP中处理中文数据特有的一种方法,因为英文天然有空格隔开,所以分词主要针对的是中文文本数据。
定义
- 分词指将一串汉字序列,按照一定规范,合理地切分成一个词序列的过程
难点:
- 分词规范不统一(PKU,CTB,etc)
- 歧义切分(交集型:结合/成 or 结/合成;组合型:学生会 or 学生/会;真歧义:一打啤酒 or 打人)
- 未登录词(人名,地名,新词,etc),也叫OOV
本文介绍了中文分词的基本概念、难点、评估标准及历史发展。分词是自然语言处理中的关键步骤,包括词表匹配、语法语言模型、序列标注等方法。随着技术进步,深度学习被应用于序列标注,解决长距离依赖问题。工程实践中,数据标注、模型优化、计算加速和内存压缩是重要环节,涉及半监督学习、规则融合、硬件加速和知识萃取等技术。
今天听了一个分词讲座,较为基础的全面介绍以及工业上的一些实践。
整理了一下,尽量不写公式用文字说明。
分词是NLP中处理中文数据特有的一种方法,因为英文天然有空格隔开,所以分词主要针对的是中文文本数据。

被折叠的 条评论
为什么被折叠?
>