OOV
OOV
DecafTea
定量,归类(框架),融合,体系
展开
-
jieba源码解析:jieba.cut
文章转载自: https://www.cnblogs.com/aloiswei/p/11567616.html jieba分词有三种模式:全模式、精确模式、搜索引擎模式。全模式和精确模式通过jieba.cut实现,搜索引擎模式对应cut_for_search,且三者均可以通过参数HMM决定是否使用新词识别功能。 ...原创 2021-02-13 10:24:49 · 1437 阅读 · 0 评论 -
讨论OOV(新词,也叫未登录词,词典之外的词语)问题的解决方案
1. 解决方案 分为两部分: 1)修正领域词典:新词提取,扩充词典 2)缩小词典大小:wordpiece - 将词切分为更小粒度(将词汇拆成实义词+词根)。主要用于英文词典,因为英语的词根是有规律的。 目标:调查具体实现方案、背景知识、代码细节、比较每个方案的优点和问题、讨论适用场景。 2. 新词提取 2.1 具体实现方案 2.2 背景知识 2.3 代码细节 2.4 方案比较 & 适用场景讨论 3. wordpiece 3.1 具体实现方案 3.2 背景知识 3.3 代码细节 3.4 方案比较 &a原创 2021-02-05 16:00:06 · 1450 阅读 · 0 评论