算法基础

  • 先验概率:是指根据以往经验和分析得到的概率。
  • 后验概率:事情已经发生,要求这件事情发生的原因是由某个因素引起的可能性的大小。
    P(A|B)=P(A,B)P(B)=P(B|A)P(A)P(B|A)P(A)+P(B|C)P(C) P ( A | B ) = P ( A , B ) P ( B ) = P ( B | A ) ∗ P ( A ) P ( B | A ) ∗ P ( A ) + P ( B | C ) ∗ P ( C )
自信息
  • 信息: i(x)=log(p(x)) i ( x ) = − l o g ( p ( x ) )
    1.如果说概率p是对确定性的度量
    2.那么信息就是对不确定性的度量
  • 独立事件的信息
    如果两个事件X和Y独立,即 p(xy)=p(x)p(y) p ( x y ) = p ( x ) ∗ p ( y ) ,假定X和y的信息量分别为i(x)和i(y),则二者同时发生的信息量应该为 i(x^y)= i(x)+i(y) i ( x ) + i ( y )
熵:自信息的期望
  • 是对平均不确定性的度量
    H(x)=P(x)log(P(x)) H ( x ) = − ∑ P ( x ) ∗ l o g ( P ( x ) )
  • 熵是随机变量不确定性的度量,不确定性越大,熵值越大;若随机变量退化成定值,熵为 0.
  • 熵其实定义了一个函数(概率分布函数)到一个值(信息熵)的映射。
互信息
  • 定义: i(y,x)=i(y)i(y|x)=log(p(y|x)/p(y)) i ( y , x ) = i ( y ) − i ( y | x ) = l o g ( p ( y | x ) / p ( y ) ) i(先验事件) - i(后验事件)
  • 收信者收到信息x后,对信源发Y的不确定性的消除
平均互信息

I(X;Y)=P(x,y)logP(x,y)P(x)P(y) I ( X ; Y ) = ∑ P ( x , y ) ∗ l o g P ( x , y ) P ( x ) ∗ P ( y )
I(X;Y)=H(X)H(X|Y)=H(Y)H(Y|X)=H(X,Y)H(X|Y)H(Y|X) I ( X ; Y ) = H ( X ) − H ( X | Y ) = H ( Y ) − H ( Y | X ) = H ( X , Y ) − H ( X | Y ) − H ( Y | X )

  • 决策树中的“信息增益”其实就是平均互信息I(X,Y)。
条件熵

H(Y|X)=p(x,y)logp(x)p(x,y) H ( Y | X ) = ∑ p ( x , y ) ∗ l o g p ( x ) p ( x , y )

联合熵

H(X,Y)=p(x,y)log2P(x,y) H ( X , Y ) = − ∑ ∑ p ( x , y ) ∗ l o g 2 P ( x , y )

交叉熵

H(T;Y)=pt(z)log2py(z) H ( T ; Y ) = − ∑ p t ( z ) ∗ l o g 2 p y ( z )
* 衡量两个概率分布的差异性

相对熵(KL散度)

KL(f(x)||g(x))=f(x)logf(x)g(x) K L ( f ( x ) | | g ( x ) ) = ∑ f ( x ) ∗ l o g f ( x ) g ( x )

推荐算法
协同过滤
  • 基于物品的协同过滤
  • 基于用户的协同过滤
  • 协同过滤优点
    1  基于用户行为, 因此对推荐内容无需先验知识
    2 只需要用户和商品关联矩阵即可, 结结构简单
    3  在用户行为丰富的情况下, 效果好
  • 协同过滤缺点
    1 需要大量的显性/隐性用户行为
    2 需要通过完全相同的商品关联, 相似的不行
    3  假定用户的兴趣完全取决于之前的行为, 而和当前上下文环境无关
    4  在数据稀疏的情况下受影响。 可以考虑二度关联。
隐语义模型

主要想法是, 应该有一些隐藏的因素, 影响用户的打分
1 比如电影: 演员、 题材、 主题、 年代…
2 不一定是人直接可理解的隐藏因子
3 找到隐藏因子, 可以对user和item进行关联
用户和被测对象直接分离,通过隐藏因素关联,矩阵相乘。

决策树
  • 决策树学习采用的是自顶向下的递归方法;
  • 其基本思想是以信息熵为度量构造一棵熵值下降最快的树,到叶子节点处的熵值为零;
  • 有监督学习;
随机森林
  • 从样本集中用 Bootstrap 采样选出n个样本;
  • 从所有属性中随机选择k个属性,选择最佳分割属性作为节点建立 CART 决策树;
  • 重复以上两步m次,即建立了m棵 CART 决策树;
  • 这m个 CART 形成随机森林,通过投票表决结果,决定数据属于哪一类;
  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值