NLP
行走的五花肉
这个作者很懒,什么都没留下…
展开
-
动手学bert课程笔记
1.pytorch下面有一个pre_trained里面的东西是官方给定的,在tokenizion中可以更改各个与训练模型的下载的地址,过多的就不要改了。 2.我们在使用bert的时候,写forward当我们不知道数据的形式什么样的时候,我们就点进去源码,看看对于该模型的输入输出的要求 这里的x是什么?传进bert都需要什么?x就是什么 上图就是模型的输入输出的要求。 此处需要写bert的前向传播,直接点进去self.bert,复制前向传播的参数即可。 模型初步写完我们需要调整一下维度。在这里是con原创 2020-08-18 17:18:59 · 851 阅读 · 1 评论 -
TF-IDF
TF-IDF是一种统计方法,用来评估一字词对于一个文件集或一个语料库中的其中一份文件的重要程度。字词的重要性随着它①在文件中出现的次数成正比增加,但同时会随着它②在语料库中出现的频率成反比下降。 其中,①通过算法的TF部分来进行评估;②通过IDF来进行评估。 TF:Term Frequency,一般称为“关键词的词频”,或者“单文本词频”。计算方法:文件中关键词的使用次数除以文件总词数(非去重)。例如,在一篇总词数为10000的文章中,“人工智能”出现了17次,“发展”出现了23次,“的”出现了113次。那原创 2020-07-29 15:13:19 · 171 阅读 · 0 评论