Huffman编码:
用词频作为词权重,构造 Huffman 树生成的 Huffman 编码,满足语料库总编码长度的期望最短。(频率高的编码短,频率低的编码长)
n-gram:
(n-1)阶Markov假设:词概率只与它前面 n-1 个词有关。复杂度 O(Nn) O ( N n ) 。需要平滑(类似 Bayes)
n=1 n = 1 即是 unigram
2 Hierarchical Softmax
n-gram下词 wi w i 的上下文Context( wi w i ):
C(wi)=(wi−n,⋯,wi−1,wi+1,⋯,wi+n) C ( w i ) = ( w i − n , ⋯ , w i − 1 , w i + 1 , ⋯ , w i + n )每个词的词向量: v(w) v ( w )
2.1 CBOW(continuous bag of word):
概率模型及其对数似然函数:
p(w|C(w))L=∑w∈Dlogp(w|C(w)) p ( w | C ( w ) ) L = ∑ w ∈ D log p ( w | C ( w ) )输入层: C(w) C ( w )
- 投影层的构造: x(w)=∑w′∈C(w)v(w′) x ( w ) = ∑ w ′ ∈ C ( w ) v ( w ′ )
- 输出层:
Huffman 树,叶子节点 N N (词个数)个,非叶子节点 个。
从根节点向下找到词 w w 的叶节点有唯一路径 ,到每一层 j j 的结点(有一个权重)向下做二分裂,相当于做一次二分类 σ(x(w)⋅θj) σ ( x ( w ) ⋅ θ j ) 。向左为负类( tj+1=0 t j + 1 = 0 ),右为正类( tj+1=1 t j + 1 = 1 )。
最终找到词 w w 的概率 及对数似然函数 L L :
p(w|C(w))=∏j=1→wp(tj+1|x(w),θj)=∏j=1→wσ(x(w)⋅θj)tj+1⋅[1−σ(x(w)⋅θj)]1−tj+1L=∑wlog∏j=1→wp(tj+1|x(w),θj)=∑w∑j=1→w(tj+1logσ[x(w)⋅θj]+(1−tj+1)log(1−σ[x(w)⋅θj])) p ( w | C ( w ) ) = ∏ j = 1 → w p ( t j + 1 | x ( w ) , θ j ) = ∏ j = 1 → w σ ( x ( w ) ⋅ θ j ) t j + 1 ⋅ [ 1 − σ ( x ( w ) ⋅ θ j ) ] 1 − t j + 1 L = ∑ w log ∏ j = 1 → w p ( t j + 1 | x ( w ) , θ j ) = ∑ w ∑ j = 1 → w ( t j + 1 log σ [ x ( w ) ⋅ θ j ] + ( 1 − t j + 1 ) log ( 1 − σ [ x ( w ) ⋅ θ j ] ) )
t t 是与 w 有关的(每次找不同的 w),只与结点有关,与词无关?
2.2 skip-gram:
- 输入层: v(w) v ( w )
- 输出层:
Huffman树。从顶层根结点向下找到每个 u∈C(w) u ∈ C ( w ) 。每个结点的二分裂与CBOW 类似。
概率模型及其对数似然函数:
p(C(w)|w)=∏u∈C(w)p(u|w)=∏u∈C(w)∏j=1→uσ(v(w)⋅θj)tj+1⋅[1−σ(v(w)⋅θj)]1−tj+1L=∑wlog∏u∈C(w)p(u|w)∑w∑u∈C(w)∑j=1→u(tj+1logσ[v(w)⋅θj]+(1−tj+1)log(1−σ[v(w)⋅θj])) p ( C ( w ) | w ) = ∏ u ∈ C ( w ) p ( u | w ) = ∏ u ∈ C ( w ) ∏ j = 1 → u σ ( v ( w ) ⋅ θ j ) t j + 1 ⋅ [ 1 − σ ( v ( w ) ⋅ θ j ) ] 1 − t j + 1 L = ∑ w log ∏ u ∈ C ( w ) p ( u | w ) ∑ w ∑ u ∈ C ( w ) ∑ j = 1 → u ( t j + 1 log σ [ v ( w ) ⋅ θ j ] + ( 1 − t j + 1 ) log ( 1 − σ [ v ( w ) ⋅ θ j ] ) )
3. Negative sampling(NEG)
用随机负采样替代 Huffman 树,提高效率。
- 词向量: v(w) v ( w ) ,简写 vw v w
- 每个词的上下文Context(w): C(w) C ( w ) , xw=x(w)=∑u∈C(w)v(u) x w = x ( w ) = ∑ u ∈ C ( w ) v ( u )
- 每个词的负采样集合: NEG(w) N E G ( w )
- 每个词的辅助权重: θw θ w
3.1 CBOW
对每一组样本
(w,C(W))
(
w
,
C
(
W
)
)
,最大化
p(c(w)→w)
p
(
c
(
w
)
→
w
)
,最小化
∏u∈NEG(w)p(c(w)→u)
∏
u
∈
N
E
G
(
w
)
p
(
c
(
w
)
→
u
)
, 即最大化的单样本似然函数
g(w)
g
(
w
)
。及语料库
D
D
的总似然函数 :
3.2 skip gram
对每一组样本 (w,C(W)) ( w , C ( W ) ) ,?