![](https://img-blog.csdnimg.cn/20201014180756916.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
自然语言处理
asdasdasdasasd1111
这个作者很懒,什么都没留下…
展开
-
TF-IDF
TF-IDF词频 (term frequency, TF) 指的是某一个给定的词语在该文件中出现的次数。这个数字通常会被归一化(分子一般小于分母 区别于IDF),以防止它偏向长的文件。逆向文件频率 (inverse document frequency, IDF) 是一个词语普遍重要性的度量。某一特定词语的IDF,可以由总文件数目除以包含该词语之文件的数目,再将得到的商取对数得到。...转载 2018-03-28 15:07:29 · 249 阅读 · 0 评论 -
OOV问题的解决
1)使用subword的方式来解决,可以使用fasttext工具 训练词向量时候会生成subword的词向量的信息[1];2)在训练词向量时候,随机删除一些词,置为unknow,训练得到的unkonw就是OOV的词向量信息;3)skip-thoughts 中有个扩大词库的方法 ;4)未完待续;参考:1)https://blog.csdn.net/sinat_...原创 2019-06-05 21:55:00 · 6883 阅读 · 0 评论 -
句向量的表示(上)—无监督
参考:https://www.cnblogs.com/llhthinker/p/10335164.html目录1)基于词向量的词袋模型 —平均词向量与TFIDF加权平均词向量 —SIF加权平均词向量 发表于2016年的论文A simple but tough-to-beat baseline for sentence embed...转载 2019-06-05 22:07:39 · 1466 阅读 · 0 评论