day3-搜索和推荐的matching技术

 

 

召回系统架构

人工规则

  1. 疲劳度过滤 (干掉一批用户不感兴趣的东西)
  2. 依据过去浏览的东西(可以把当前浏览作为实时的属性传到工程系统中消费)
  3. 业务要求

Embedding

什么是Embedding

  • 从数学上看,是映射
  • 从神经网络的角度看,是层与层之间的矩阵
  • 从特征的角度看,是从一套特征映射到另一种表示方法

Embedding的产出方式

  • 监督学习:深度学习和FM
  • 无监督学习:word2vec和序列化

Graph Embedding(GE):DeepWalk

我们可以直接用用户的行为序列来建模,但是该建模方式可能更加关注局部信息,可以将其泛化到图上去,常用的方法有item2vec。将用户序列构成一个图,可以采用随机游走来泛化,在图上随机游走生成新的序列,在新的序列上再运用word2vec算法,就可以学习出每个item的embedding。

embedding的通用化和特性化

非监督:即使我们将其转换成了监督问题,但是其原始是非监督问题,非监督运用了序列化的思想建模,但是序列化拿两边预测中间,拿中间预测两边,其label是认为构造出来的,label是一个比较弱的label,换句话说其学到的信息是一个比较偏general的信息,方便其他场景复用。

监督:用的是深度学习的一些算法,是有label在的,网络中所有的神经元的变量都是一些具体的数值,数值都是与label有关系的,一个地方计算的embedding换到其他地方,label变了,就不一定适用了,specific,不太好迁移。

工业界TF

  1. 读数据
    1. Hive: encoder、deconder
    2. QueueRunner: IO
  2. 组网
    1. PS
  3. 训练

Estimator、mointoredSession

FM基础

y = \sigma(w\cdot x + x^T \cdot W^{(2)} \cdot x)

W^{(2)} = W^T \cdot W

y = \sigma(w\cdot x + x^T \cdot W^{(2)} \cdot x) = \sigma (<w,x> + <W \cdot x,W \cdot x> )

矩阵分解的时候可以两个新的矩阵用去拟合原始矩阵,可以用两个n*k的矩阵还原n*n的矩阵

优点

  • 泛化能力强
  • embedding的使用

 

 

 

 

 

 

 

 

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 1
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值