![](https://img-blog.csdnimg.cn/20201014180756927.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
NLP
MirrorN
知来者之可追
展开
-
TensorFlow实现word2vec(Skip-Gram、CBOW)代码记录
最近学习word2vec,发现一些文章写的有点,略。。(>﹏<),而且有些代码有错误,这里记录一些学习代码过程中的问题,这里构建的方式是Skip-Gram,代码不全部写出,只写一些觉得重要的地方。首先,如果想要了解详细的数学原理,可以移步word2vec中的数学原理,文档中写的非常非常详细,推荐度max。文章目录1.删除高频停用词2.构建数据集3.生成batch数据4.负采样计算5.关于词向量...原创 2019-06-10 21:01:00 · 2998 阅读 · 1 评论 -
sklearn中TF-IDF值的计算方式
关于TF-IDF值,首先简单地提一下:TF(Term Frequency),也就是词频,这个定义很直观,也就是某个词语地频数除以整个文档的总词数:TF=某个词语出现次数文档总词语数TF=\frac{某个词语出现次数}{文档总词语数}TF=文档总词语数某个词语出现次数对于IDF(Inverse Document Frequency)也就是“逆文本频率”,这个值主要是用来限制单纯使用TF值...原创 2019-09-09 17:35:46 · 6632 阅读 · 3 评论