day3-搜索和推荐的matching技术

最新推荐文章于 2024-02-25 20:47:27 发布

一杯敬朝阳一杯敬月光

最新推荐文章于 2024-02-25 20:47:27 发布

阅读量205

点赞数

分类专栏：推荐系统深度学习文章标签：推荐系统深度学习召回

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_xuanshuang/article/details/112976319

版权

推荐系统同时被 2 个专栏收录

23 篇文章 1 订阅

订阅专栏

21 篇文章 0 订阅

订阅专栏

召回系统架构

人工规则

疲劳度过滤（干掉一批用户不感兴趣的东西）
依据过去浏览的东西（可以把当前浏览作为实时的属性传到工程系统中消费）
业务要求

Embedding

什么是Embedding

从数学上看，是映射
从神经网络的角度看，是层与层之间的矩阵
从特征的角度看，是从一套特征映射到另一种表示方法

Embedding的产出方式

监督学习：深度学习和FM
无监督学习：word2vec和序列化

Graph Embedding（GE）：DeepWalk

我们可以直接用用户的行为序列来建模，但是该建模方式可能更加关注局部信息，可以将其泛化到图上去，常用的方法有item2vec。将用户序列构成一个图，可以采用随机游走来泛化，在图上随机游走生成新的序列，在新的序列上再运用word2vec算法，就可以学习出每个item的embedding。

embedding的通用化和特性化

非监督：即使我们将其转换成了监督问题，但是其原始是非监督问题，非监督运用了序列化的思想建模，但是序列化拿两边预测中间，拿中间预测两边，其label是认为构造出来的，label是一个比较弱的label，换句话说其学到的信息是一个比较偏general的信息，方便其他场景复用。

监督：用的是深度学习的一些算法，是有label在的，网络中所有的神经元的变量都是一些具体的数值，数值都是与label有关系的，一个地方计算的embedding换到其他地方，label变了，就不一定适用了，specific，不太好迁移。

工业界TF

读数据
1. Hive： encoder、deconder
2. QueueRunner： IO
组网
1. PS
训练

Estimator、mointoredSession

FM基础

$y = \sigma(w\cdot x + x^T \cdot W^{(2)} \cdot x)$

$W^{(2)} = W^T \cdot W$

$y = \sigma(w\cdot x + x^T \cdot W^{(2)} \cdot x) = \sigma (<w,x> + <W \cdot x,W \cdot x> )$

矩阵分解的时候可以两个新的矩阵用去拟合原始矩阵，可以用两个n*k的矩阵还原n*n的矩阵

优点

泛化能力强
embedding的使用

一杯敬朝阳一杯敬月光

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
1
评论
day3-搜索和推荐的matching技术

召回系统架构人工规则疲劳度过滤（干掉一批用户不感兴趣的东西）依据过去浏览的东西（可以把当前浏览作为实时的属性传到工程系统中消费）业务要求...
复制链接

扫一扫

专栏目录

一杯敬朝阳一杯敬月光 CSDN认证博客专家 CSDN认证企业博客

码龄6年

199: 原创

4万+: 周排名

75万+: 总排名

9万+: 访问

: 等级

2202: 积分

357: 粉丝

45: 获赞

48: 评论

225: 收藏

私信

关注

热门文章

分类专栏

安卓
leetcode 题 51篇
推荐系统 23篇
深度学习 21篇
机器学习 23篇
pandas 4篇
NLP 6篇
大数据 15篇
TensorFlow 4篇
Java小白学习之旅 30篇
shell 8篇
计算广告 3篇
python 17篇
paper 20篇
笔记 14篇

最新评论

Python3入门与进阶笔记（五）：函数
CSDN-Ada助手: 哇, 你的文章质量真不错，值得学习！不过这么高质量的文章, 还值得进一步提升, 以下的改进点你可以参考下: (1)起一个更符合文章内容的标题；(2)提升标题与正文的相关性；(3)使用更多的站内链接。
SVD解线性方程组（非齐次）
dingwj22: b的值是错的，应该是[14,32,1.47,28]
Python3入门与进阶笔记（六）：类
CSDN-Ada助手: 哇, 你的文章质量真不错，值得学习！不过这么高质量的文章, 还值得进一步提升, 以下的改进点你可以参考下: (1)起一个更符合文章内容的标题；(2)使用标准目录；(3)增加内容的多样性(例如使用标准目录、标题、图片、链接、表格等元素)。
NLP-新闻主题分类任务
一杯敬朝阳一杯敬月光: 感谢，已改
NLP-新闻主题分类任务
shushu人爱打工: 在处理数据集的函数里第23行应该是 all_dataset_texts = train_dataset_texts + test_dataset_texts

您愿意向朋友推荐“博客详情页”吗？

强烈不推荐
不推荐
一般般
推荐
强烈推荐

提交

最新文章

目录

评论 1

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。