word2vector
qq_30868235
这个作者很懒,什么都没留下…
展开
-
自己动手写word2vec (一):主要概念和流程
word2vec 是 Google 于 2013 年开源推出的一个用于获取词向量(word vector)的工具包,它简单、高效,因此引起了很多人的关注。我在看了@peghoty所写的《word2vec中的数学以后》(个人觉得这是很好的资料,各方面知识很全面,不像网上大部分有残缺),为了加深理解,自己用Python实现了一遍。贴在我的github上系列所有帖子 自己动手写word2vec (一):...转载 2018-05-31 09:48:30 · 407 阅读 · 0 评论 -
Huffman码的生成
这一部分将解释Huffman树的构造方法,并说明了如何根据Huffman树来产生对应的二进制编码。这部分的代码放在HuffmanTree.py中Huffman树的构造Huffman树的构造方法与Huffman编码密切相关。 具体的做法可以用下列伪码来描述while (单词列表长度>1) { 从单词列表中挑选出出现频率最小的两个单词 ; 创建一个新的中间节点,其左右节点分别是之...转载 2018-05-31 09:55:26 · 253 阅读 · 0 评论 -
:CBOW和skip-gram模型
系列所有帖子 自己动手写word2vec (一):主要概念和流程 自己动手写word2vec (二):统计词频 自己动手写word2vec (三):构建Huffman树 自己动手写word2vec (四):CBOW和skip-gram模型CBOW和skip-gram应该可以说算是word2vec的核心概念之一了。这一节我们就来仔细的阐述这两个模型。其实这两个模型有很多的相通之处,所以这里就以阐述C...转载 2018-05-31 10:05:11 · 1135 阅读 · 0 评论 -
用 Doc2Vec 得到文档/段落/句子的向量表达
用 Doc2Vec 得到文档/段落/句子的向量本文结构:Doc2Vec 有什么用两种实现方法用 Gensim 训练 Doc2VecDoc2Vec 或者叫做 paragraph2vec, sentence embeddings,是一种非监督式算法,可以获得 sentences/paragraphs/documents 的向量表达,是 word2vec 的拓展。学出来的向量可以通过计算距离来找 sen...转载 2018-05-31 10:59:19 · 998 阅读 · 0 评论