Word2Vec学习笔记(一)

目录

  • Word2Vec基本数学内容
  • 语言模型
  • Hierarchical Softmax 模型
  • Negative Sampling 模型

一、Word2Vec基本数学内容

1. Sigmod 函数

&absp;&absp;&absp;&absp;Sigmod函数通常在二分类中应用。它将样本映射后投影在[0, 1]范围内,对应样本所属的类的概率。函数表达式如下所示:

f(x)=11+ex

具体的讨论可以参见:
http://blog.csdn.net/chunyun0716/article/details/51580342

2. 贝叶斯公式

P(A|B)=P(B|A)P(A)P(B)

可以参见贝叶斯分类等一系列文章:
1. http://blog.csdn.net/chunyun0716/article/details/51031055
2. http://blog.csdn.net/chunyun0716/article/details/51058948
3. http://blog.csdn.net/chunyun0716/article/details/51111864

3. Huffman 树和Huffman编码

下边这篇博客写的很详细了,这里简单引用一些基本知识:
http://blog.csdn.net/shuangde800/article/details/7341289

定义哈夫曼树之前先说明几个与哈夫曼树有关的概念:
路径: 树中一个结点到另一个结点之间的分支构成这两个结点之间的路径。
路径长度:路径上的分枝数目称作路径长度。
树的路径长度:从树根到每一个结点的路径长度之和。
结点的带权路径长度:在一棵树中,如果其结点上附带有一个权值,通常把该结点的路径长度与该结点上的权值 之积称为该结点的带权路径长度(weighted path length)
树的带权路径长度:如果树中每个叶子上都带有一个权值,则把树中所有叶子的带权路径长度之和称为树的带
权路径长度。

一般来说,用n(n>0)个带权值的叶子来构造二叉树,限定二叉树中除了这n个叶子外只能出现度为2的结点。
那么符合这样条件的二叉树往往可构造出许多颗,其中带权路径长度最小的二叉树就称为哈夫曼树或最优二叉树.

通过哈夫曼树来构造的编码称为哈弗曼编码(huffman code)

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值