自然语言处理
杨一如
对一切未知的事物都充满兴趣
随缘更新
展开
-
subword相关介绍
目录subword产生背景subword主流算法BPEwordpieceunigram language modelbert 的分词参考资料subword产生背景 word-level模型导致严重的OOV,而character-level模型粒度又太小 过大的词典会带来两个问题: 稀疏问题: 某些词汇出现的频率很低,得不到充分的训练 计算量问题: 词典过大,也就意味着embedding过程的计算量会变大 将词划分...原创 2021-07-10 16:54:13 · 589 阅读 · 0 评论 -
中文分词简单小结
中文分词实现原理:1、基于词典分词算法也称字符串匹配分词算法。该算法是按照一定的策略将待匹配的字符串和一个已建立好的“充分大的”词典中的词进行匹配,若找到某个词条,则说明匹配成功,识别了该词。常见的基于词典的分词算法分为以下几种:正向最大匹配法、逆向最大匹配法和双向匹配分词法等。基于词典的分词算法是应用最广泛、分词速度最快的。很长一段时间内研究者都在对基于字符串匹配方法进行优化,比如最...转载 2018-08-12 17:34:37 · 682 阅读 · 0 评论