NLP
文章平均质量分 77
沉住气CD
这个作者很懒,什么都没留下…
展开
-
用TF-IDF处理文本数据
Term Frequency (tf, 词频):给出语料库中每个文档中单词出现的频率。tfijnij∑knijtfij∑knijnijInverse Data Frequency(idf, 逆数据频率)idfωlogNdftidfωlogdftN结合这两者,我们得出了语料库中文档中单词的TF-IDF分数(ω\omegaωtfij×logNdfitfij×。原创 2024-01-11 13:32:21 · 880 阅读 · 0 评论 -
BPE(Byte-Pair Encoding )代码实现
BPE是使用最广泛的sub-word tokenization算法之一。尽管贪婪,但它具有良好的性能,并被作为机器翻译等主流NLP任务的首选tokenize方法之一。原创 2024-01-11 12:26:01 · 522 阅读 · 0 评论 -
BPE-NLP重要的编码方式
最终,我们将遍历所有token,并且我们的子字符串将被替换为我们token列表中已经存在的token组合。我们常用的语言模型词汇列表是很大的,但仍有可能出现不在里面的单词。对于未知(新)词,我们应用上述编码方法对新词进行tokenization,并将新词的token添加到我们的token字典中以备将来用到。在实际中,我们的预料库通常要大得多,从而我们能通过更多的迭代次数将token列表缩小更多的比例。算法的下一步是寻找最频繁的字符对,合并它们,并一次又一次地执行相同的迭代,直到达到我们预先设置的。原创 2023-12-26 13:54:14 · 807 阅读 · 0 评论