- 先验概率:是指根据以往经验和分析得到的概率。
- 后验概率:事情已经发生,要求这件事情发生的原因是由某个因素引起的可能性的大小。
P(A|B)=P(A,B)P(B)=P(B|A)∗P(A)P(B|A)∗P(A)+P(B|C)∗P(C) P ( A | B ) = P ( A , B ) P ( B ) = P ( B | A ) ∗ P ( A ) P ( B | A ) ∗ P ( A ) + P ( B | C ) ∗ P ( C )
自信息
- 信息:
i(x)=−log(p(x))
i
(
x
)
=
−
l
o
g
(
p
(
x
)
)
1.如果说概率p是对确定性的度量
2.那么信息就是对不确定性的度量 - 独立事件的信息
如果两个事件X和Y独立,即 p(xy)=p(x)∗p(y) p ( x y ) = p ( x ) ∗ p ( y ) ,假定X和y的信息量分别为i(x)和i(y),则二者同时发生的信息量应该为 i(x^y)= i(x)+i(y) i ( x ) + i ( y ) 。
熵:自信息的期望
- 熵是对平均不确定性的度量
H(x)=−∑P(x)∗log(P(x)) H ( x ) = − ∑ P ( x ) ∗ l o g ( P ( x ) ) - 熵是随机变量不确定性的度量,不确定性越大,熵值越大;若随机变量退化成定值,熵为 0.
- 熵其实定义了一个函数(概率分布函数)到一个值(信息熵)的映射。
互信息
- 定义: i(y,x)=i(y)−i(y|x)=log(p(y|x)/p(y)) i ( y , x ) = i ( y ) − i ( y | x ) = l o g ( p ( y | x ) / p ( y ) ) i(先验事件) - i(后验事件)
- 收信者收到信息x后,对信源发Y的不确定性的消除
平均互信息
I(X;Y)=∑P(x,y)∗logP(x,y)P(x)∗P(y)
I
(
X
;
Y
)
=
∑
P
(
x
,
y
)
∗
l
o
g
P
(
x
,
y
)
P
(
x
)
∗
P
(
y
)
I(X;Y)=H(X)−H(X|Y)=H(Y)−H(Y|X)=H(X,Y)−H(X|Y)−H(Y|X)
I
(
X
;
Y
)
=
H
(
X
)
−
H
(
X
|
Y
)
=
H
(
Y
)
−
H
(
Y
|
X
)
=
H
(
X
,
Y
)
−
H
(
X
|
Y
)
−
H
(
Y
|
X
)
- 决策树中的“信息增益”其实就是平均互信息I(X,Y)。
条件熵
H(Y|X)=∑p(x,y)∗logp(x)p(x,y) H ( Y | X ) = ∑ p ( x , y ) ∗ l o g p ( x ) p ( x , y )
联合熵
H(X,Y)=−∑∑p(x,y)∗log2P(x,y) H ( X , Y ) = − ∑ ∑ p ( x , y ) ∗ l o g 2 P ( x , y )
交叉熵
H(T;Y)=−∑pt(z)∗log2py(z)
H
(
T
;
Y
)
=
−
∑
p
t
(
z
)
∗
l
o
g
2
p
y
(
z
)
* 衡量两个概率分布的差异性
相对熵(KL散度)
KL(f(x)||g(x))=∑f(x)∗logf(x)g(x) K L ( f ( x ) | | g ( x ) ) = ∑ f ( x ) ∗ l o g f ( x ) g ( x )
推荐算法
协同过滤
- 基于物品的协同过滤
- 基于用户的协同过滤
- 协同过滤优点
1 基于用户行为, 因此对推荐内容无需先验知识
2 只需要用户和商品关联矩阵即可, 结结构简单
3 在用户行为丰富的情况下, 效果好 - 协同过滤缺点
1 需要大量的显性/隐性用户行为
2 需要通过完全相同的商品关联, 相似的不行
3 假定用户的兴趣完全取决于之前的行为, 而和当前上下文环境无关
4 在数据稀疏的情况下受影响。 可以考虑二度关联。
隐语义模型
主要想法是, 应该有一些隐藏的因素, 影响用户的打分
1 比如电影: 演员、 题材、 主题、 年代…
2 不一定是人直接可理解的隐藏因子
3 找到隐藏因子, 可以对user和item进行关联
用户和被测对象直接分离,通过隐藏因素关联,矩阵相乘。
决策树
- 决策树学习采用的是自顶向下的递归方法;
- 其基本思想是以信息熵为度量构造一棵熵值下降最快的树,到叶子节点处的熵值为零;
- 有监督学习;
随机森林
- 从样本集中用 Bootstrap 采样选出n个样本;
- 从所有属性中随机选择k个属性,选择最佳分割属性作为节点建立 CART 决策树;
- 重复以上两步m次,即建立了m棵 CART 决策树;
- 这m个 CART 形成随机森林,通过投票表决结果,决定数据属于哪一类;