![](https://img-blog.csdnimg.cn/20201014180756918.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
NLP
文章平均质量分 68
Cziun
这个作者很懒,什么都没留下…
展开
-
负采样
参考1 参考2原创 2021-03-12 23:45:21 · 5688 阅读 · 0 评论 -
word2vec
One-Hot 编码 One-Hot 编码又称一位有效编码,其方法是使用N位状态寄存器来对N个状态进行编码,每个状态都有它独立的寄存器位,并且在任意时候,N个状态中只有一位有效。举个例子,假设有四个样本(行),每个样本有三个特征(列),如图: feature_1有两种可能的取值,比如是男/女,这里男用1表示,女用2表示。feature_2 和feature_3各有4种取值(状态)。one-hot编码就是保证每个样本中的单个特征只有1位处于状态1,其他的都是0。上述状态用one-hot编码如下图所示: 再原创 2021-03-12 23:27:40 · 124 阅读 · 0 评论 -
bag-of-words
Bag-of-words 最初应用于文本处理领域,用来对文档进行分类和识别。Bag-of-words 因为其简单有效的优点而得到了广泛的应用。其基本原理可以用以下例子来给予描述。给定两句简单的文档: 文档 1:“我喜欢跳舞,小明也喜欢。” 文档 2:“我也喜欢唱歌。” 基于以上这两个文档,便可以构造一个由文档中的关键词组成的词典: 词典={1:“我”,2:“喜欢”,3:“跳舞”,4:“小明”,5:“也”,6:“唱歌”} 这个词典一共包含6个不同的词语,利用词典的索引号,上面两个文档每一个都可以用一个6维向量原创 2021-03-12 20:02:34 · 200 阅读 · 0 评论