文章目录
中文分词的 目的是在中文中的词与词之间加上边界标记,本质上是对中文句子做划分词的边界。
为什么要做?
英文天然是“分词”的,中文天然是“分字”的。
如何去做分词?
统计学习方法、机器学习方法
中文分词的使用场景:
内容检索、内容推荐、内容生成
中文分词的难点是什么?
标准(粒度粗细、场景多样)
搜索场景、推荐场景、垂直场景需求均不同;推荐场景中为了保留完成语义,选择粗粒度,更容易保留原始语义;搜索场景选择细粒度,因为搜索场景注重召回能力(宁缺毋滥)
歧义
苹果?
新词(未登录词)
中文分词方法有哪些?
- 规则字典
- 最大长度匹配(正序、逆序、双序)
- 前缀树检索
- 机器学习