自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(51)
  • 收藏
  • 关注

原创 【Trustworthy Recommender Systems】

推荐系统(RSs)旨在帮助用户有效地从一个大目录中检索他们感兴趣的项目。在相当长的一段时间里,研究人员和从业人员一直致力于开发准确的RSs。近年来,RSs面临的威胁越来越多,这些威胁来自攻击、系统和用户产生的噪声、系统偏差。因此,很明显,严格关注RS的准确性是有限的,研究必须考虑其他重要因素,例如可信度。对于最终用户来说,一个值得信赖的RS (TRS)不仅应该准确,而且应该透明、公正和公平,并且对噪声或攻击具有鲁棒性。

2024-04-07 12:02:01 256

原创 大模型与C/C++代码补全和代码生成

工程师可以使用大模型来训练自定义代码补全模型,使其适应特定项目或团队的需求。这允许定制化建议,以适应不同的编码规范和最佳实践。

2024-04-07 12:00:25 258

原创 视频——从零开始构建企业级推荐系统

视频链接

2023-06-19 14:39:47 4

原创 视频——小红书REDtech来了|小红书推荐系统的技术创新与实践

视频内容很丰富,最后讨论了很多推荐的未来发展方向,数据集的问题等等。·图文、视频、直播、商品等多元内容。·兴趣多样性和人群破圈。

2023-06-17 21:06:33 6

原创 视频——【图神经网络专题】图神经网络在推荐系统的前沿研究——何向南教授

在视频最后何向南教授建议关注公司的推荐算法比赛,很多好的数据集是公司内部的,公司的比赛也能间接说明推荐系统中比较关注的问题。推荐的背景、为什么要把图神经网络和推荐结合在一起?

2023-06-17 18:43:42 4

原创 视频——中文信息学会青工委学术沙龙:推荐系统前沿进展

在互联网大数据背景下,无论是信息消费者还是信息生产者都受到了信息过载问题的严重困扰。近年来,从海量数据中挖掘用户的偏好,并据此为用户提供个性化推荐日渐被工业界和学术界所重视,并逐渐成为各大互联网平台的重要组成部分。目前推荐系统技术涵盖信息检索,自然语言处理、知识图谱和社会网络分析等相关领域。由中国中文信息学会-青年工作委员会举办的2020年学术沙龙系列活动,在北京智源人工智能研究院的支持下,第一期活动 中文信息学会青工委学术沙龙:“推荐系统前沿进展”将于2020年5月10日下午召开。

2023-06-12 17:39:26 5

原创 视频——推荐系统前沿

Graph 数据很多都是以Graph的形式存在,使用Graph Neural Network 邻居节点的信息加起来。used based 用户对item的数据 用户数量大,找到相似的用户,用户的兴趣相对时间不容易变化。Item based 物品基本都是不变的,参数基本都是不变的,参数基本只需要计算一次。CNN 处理图片,跟向量不一样,是28×28这种,CNN最核心的模块就是卷积。50分钟视频结束,感觉不是很前沿的技术,更像是大模块的说明。用户矩阵,每一行可以用向量代表他的兴趣爱好。

2023-06-10 14:34:57 2

原创 视频——推荐系统技术原理

小明再次刷新的时候:给他20篇文章,混杂一些对他的了解,只知道近期的偏好,但是不能只参考实时偏好,给他20篇,其中8篇基于实时画像,12篇做一些探索性质的推荐(钓鱼执法 体育、政治类)。1、用户画像:存储系统中记录人的兴趣点,男女,收入,(静态标签)足球:0.1,八卦新闻:0.15(动态标签、动态兴趣点)根据浏览足迹进行分类。最简单的方法是把最新的文章给他,热门TOP 20文章,看了3篇,1篇是杨幂的娱乐新闻,2篇实时新闻(打印度)。3、推荐分发,不依赖订阅关系,公平,机器模型(头条、B站)

2023-06-09 16:21:52 2

原创 《深度学习推荐系统》——第九章 构建属于你的推荐系统知识框架

想要成为⼀名优秀的推荐⼯程师,甚⾄⼀名优秀的算法⼯程师,应该在“ 知识” “ ⼯具” “ 逻辑” “ 业务” 这 4 个⽅⾯综合提⾼⾃⼰的能⼒,对某⼀技术⽅案应该有“ 深度” 和 “ ⼴度” 上的技术储备,在客观技术环境的制约下,针对问题做出权衡和取舍,最终得出可⾏且合理的技术⽅案。

2023-06-08 16:06:14 2

原创 《深度学习推荐系统》——第八章 深度学习推荐系统的前沿实践

推荐系统领域是深度学习落地最充分,产⽣商业价值最⼤的应⽤领域之⼀。⼀些最前沿的研究成果⼤多来⾃业界巨头的实践。从 Facebook 2014 年提出的GBDT+LR 组合模型引领特征⼯程模型化的⽅向,到 2016 年微软提出 DeepCrossing 模型,⾕歌发布 Wide&Deep 模型架构,以及 YouTube 公开其深度学习推荐系统,业界迎来了深度学习推荐系统应⽤的浪潮。

2023-06-08 15:23:55 3

原创 《深度学习推荐系统》——第七章

A/B 测试⼜称为 “ 分流测试” 或 “ 分桶测试”,是⼀个随机实验,通常被分为实验组和对照组。在利⽤控制变量法保持单⼀变量的前提下将 A、B 两组数据进⾏对⽐得出实验结论。具体到互联⽹场景下的算法测试中,可将⽤户随机分成实验组和对照组对实验组的⽤户施以新模型对对照组的⽤户施以旧模型,比较实验组和对照组在各线上评估指标上的差异。相对离线评估⽽⾔,线上 A/B 测试⽆法被替代的原因主要有以下 3点。• 离线评估⽆法完全消除数据有偏 ( data bias )现象。

2023-06-08 15:17:03 2

原创 《深度学习推荐系统》——第六章

之前的章节已从不同的⻆度出发介绍了深度学习推荐系统的技术要点,主要从理论和算法层⾯介绍了推荐系统的关键思想。但算法和模型终究只是“ 好酒”,还需要⽤合适的“ 容器” 盛载才能呈现出最好的味道,这⾥的“ 容器” 指的就是实现推荐系统的⼯程平台。。;,根据,可进⼀步分为。根据推荐系统整体的⼯程架构,本章的主要内容可以分为以下三⼤部分:(1)推荐系统的:主要介绍与推荐系统数据流相关的。(2)深度学习推荐模型的:主要介绍训练深度学习。

2023-06-07 19:25:58 3

原创 《深度学习推荐系统》——第五章3

其他比较实⽤的迁移学习的⽅法是在领域A和领域B的模型结构和特征⼯程相同的前提下,若领域 A的模型已经得到充分的训练,则可以直接将领域 A 模型的参数作为领域 B 模型参数的初始值。它的学习⽬的就是在⼀次⼜⼀次的循环迭代中,让推荐系统尽量快速地度过冷启动状态,为⽤户提供更个性化的推荐结果。事实上,“ 探索与利⽤” 问题是推荐系统领域⼀个⾮常重要的问题,除了解决冷启动问题,“ 探索与利⽤” 机制可以更好地挖掘⽤户潜在兴趣,维持系统的⻓期受益状态,5.7节将着重探讨解决 “ 探索与利⽤” 问题的主流⽅法。

2023-06-06 21:20:18 2

原创 《深度学习推荐算法》——第五章2

如果以点击率为优化⽬标,那么推荐系统会倾向于推荐“ 标题党” “ 预览图劲爆” 的短视频,⽽如果以播放时⻓为优化⽬标,那么推荐系统应将视频的⻓短、视频的质量等特征考虑进来,此时推荐⼀个⾼质量的“ 电影” 或 “ 连续剧” 就是更好的选择。这句话同样适⽤于技术的创新和应⽤。从模型结构( 如图 5-11)上看,底层的 Embedding 层是 CVR 部分和 CTR 部分共享的,共享 Embedding 层的⽬的主要是解决 CVR 任务正样本稀疏的问题,利⽤ CTR 的数据⽣成更准确的⽤户和物品的特征表达。

2023-06-06 11:22:48 4

原创 汇总!ChatGPT、RLHF相关最新知识点

资源名称内容简介链接标签说明Awesome RLHF (RL with Human Feedback)人类反馈强化学习(RLHF)前沿研究论文集仓库,包含最新Papers、Codebases、Blogshttps://github.com/opendilab/awesome-RLHFRLHF资源质量较高,包含最近RLHF论文、相关项目和博客Transformer Reinforcement Learning XtrlX 是一个分布式训练框架,从头开始设计,专注于使用

2023-06-06 10:42:24 144

原创 《深度学习推荐系统》——第五章1

因此是。

2023-05-29 17:54:35 2

原创 《深度学习推荐系统》——第四章3

本章介绍了深度学习的核⼼操作—Embedding技术。从最开始的 Word2vec,到应⽤于推荐系统的 Item2vec , 再到融合更多结构信息和补充信息的 Graph Embedding, Embedding 在推荐系统中的应⽤越来越深⼊,应⽤的⽅式也越来越多样化。在局部敏感哈希应⽤于相似 Embedding 搜索后Embedding 技术⽆论在理论⽅⾯,还是在⼯程实践⽅⾯都⽇趋成熟。表 4-1 总结了本章涉及的 Embedding⽅法和相关技术的基本原理与要点。

2023-05-22 16:40:52 2

原创 《深度学习推荐系统》——第四章2

呢?最简单的⽅法是。

2023-05-22 15:59:20 2

原创 《深度学习推荐系统》——第四章1

形式上讲,Embedding 就是⽤⼀个低维稠密的向量“ 表示”⼀个对象(object),这⾥所说的对象可以是⼀个词、⼀个商品,也可以是⼀部电影,等等。其中“ 表示” 这个词的含义需要进⼀步解释。笔者的理解是 “ 表示” 意味着Embedding向量能够表达相应对象的某些特征,同时向量之间的距离反映了对象之间的相似性。Word2vec 是 “word to vector” 的简称,顾名思义,Word2vec 是⼀个⽣成对“ 词” 的向量表达的模型。为了训练Word2vec 模型,需要。

2023-05-22 11:04:22 3

原创 《深度学习推荐算法》——第三章3

本章梳理了主流的深度学习推荐模型的相关知识,与章⾸的深度学习模型进化图呼应。本节对深度学习推荐模型的关键知识进⾏总结( 如表 3-2所示 )。⾯对如此多可选的深度学习推荐模型,读者不迷失其中的前提是熟悉每个模型之间的关系及其适⽤场景。需要明确的是,在深度学习时代,没有⼀个特定的模型能够胜任所有业务场景,从表 3-2中也能看岀每种模型的特点各不相同。正因如此,本章并没有列出任何模型的性能测试,因为不同数据集 、不同应⽤场景、不同评估⽅法和评估指标,不可能形成权威的测试结果。

2023-05-21 15:30:25 4

原创 《深度学习推荐系统》——第三章2

假设⼆者的共现频率⾼达 10%( 全局的平均应⽤安装率为 1%), 这个特征如此之强,以⾄于在设计模型时,希望模型⼀发现有这个特征,就推荐 pandora 这款应⽤( 就像⼀个深刻的记忆点⼀样印在脑海⾥ ),这就是所谓的模型的“ 记忆能⼒”。这⾥可以做⼀个简单的计算。FNN[8]由伦敦⼤学学院的研究⼈员于 2016年提出,其模型的结构( 如图 3-17所示)初步看是⼀个类似 Deep Crossing 模型的经典深度神经⽹络,从稀疏输⼈向量到稠密向量的转换过程也是经典的 Embedding 层的结构。

2023-05-20 16:33:49 3

原创 《深度学习推荐系统》——第三章1

顾名思义,自编码器是指能够完成数据“ 自编码” 的模型。⽆论是图像、⾳频,还是数据,都可以转换成向量的形式进⾏表达。假设其数据向量为r,自编码器的作⽤是将向量r作为输⼈,通过自编码器后,得到的输出向量尽量接近其本身。经过自编码器⽣成的输出向量,由于经过了自编码器的“ 泛化” 过程,不会完全等同于输⼈向量,也因此具备了⼀定的缺失维度的预测能⼒,这也是自编码器能⽤于推荐系统的原因。

2023-05-19 15:49:00 3

原创 《深度学习推荐系统》——第二章3

梯度下降法是⼀个⼀阶最优化算法,也称为最速下降法。应用梯度下降法的⽬的是找到⼀个函数的局部极⼩值。为此,必须沿函数上当前点对应梯度(或者是近似梯度 )的反方向进行规定步⻓距离的迭代搜索。如果向梯度正方向迭代进行搜索,则会接近函数的局部极大值点,这个过程被称为梯度上升法。如图 2-9所示,梯度下降法很像寻找⼀个盆地最低点的过程。那么,在寻找最低点的过程中,沿哪个方向才是下降最快的方向呢?

2023-05-19 11:05:34 7

原创 《深度学习推荐系统》——第二章2

来源L1损失函数也叫平均绝对值误差(MAE),我们容易看出这个损失函数具有如下缺点1、梯度恒定,不论预测值是否接近真实值,这很容易导致发散,或者错过极值点。2、导数不连续,导致求解困难。这也是L1损失函数不广泛使用的主要原因。但它同样有自己的优点:1、收敛速度比L2损失函数要快,这是通过对比函数图像得出来的,L1能提供更大且稳定的梯度。2、对异常的离群点有更好的鲁棒性,下面会以例子证实。

2023-05-18 15:24:12 3

原创 《深度学习推荐系统》——第二章1

顾名思义,“ 协同过滤” 就是协同⼤家的反馈、评价和意⻅⼀起对海量的信息进行过滤,从中筛选出⽬标用户可能感兴趣的信息的推荐过程。这⾥用⼀个商品推荐的例⼦来说明协同过滤的推荐过程(如图 2-2所示)图2-2描述了⼀个电商⽹站场景下的协同过滤推荐过程,其推荐过程按照图2-2(a)~(f)的顺序共分为 6步。(1 )电商⽹站的商品库⾥⼀共有 4件商品:游戏机、某⼩说、某杂志和某品牌电视机(2)用户 X 访问该电商⽹站,电商⽹站的推荐系统需要决定是否推荐电视机给用户 X。换⾔之,推荐系统需要。

2023-05-17 16:36:35 3

原创 《深度学习推荐系统》——第一章

模型服务过程**。在线环境进⾏模型服务之前,需要。

2023-05-17 11:28:51 4

原创 《深度学习推荐系统》——前言+目录

2012年的AlexNet在ImageNet竞赛中一举夺魁,深度学习引爆了图像、语音、自然语言处理等领域,包括推荐、广告和搜索领域。2015年,微软、谷歌、百度、阿里等公司成功地在推荐、广告等业务场景中应用深度学习模型,推荐系统领域正式迈入了深度学习时代。作者希望本书能成为读者脑海中推荐系统技术的思维导图,帮助构建深度学习推荐系统的技术框架。#### 4.4.1 DeepWalk——基础的Graph Embedding方法。#### 3.6.3 Wide&Deep模型的进化——Deep&Cross模型。

2023-05-16 20:06:31 7

原创 《深度学习推荐系统》——推荐序

深度学习推荐系统——推荐序

2023-05-16 17:29:58 4

转载 字符集详解(一看就懂系列)

https://home.unicode.org/中日韩汉字Unicode编码表一、编码历史与区别 一直对字符的各种编码方式懵懵懂懂,什么ANSI UNICODE UTF-8 GB2312 GBK DBCS UCS……是不是看的很晕,假如您细细的阅读本文你一定可以清晰的理解他们。Let's go!很久很久以前,有一群人,他们决定用8个可以开合的晶体管来组合成不同的状态,以表示世界上的万物。他们看到8个开关状态是好的,于是他们把这称为"字节"。再后来,他们又做了一些可以处理这些字节的机器,机

2020-10-20 13:09:58 312

转载 卢卡斯定理模板

Lucas用来求C(n,m)%p的值,适用于解决n,m较大,p(一定为素数)小于1e6的情况。#include <iostream>#include <cstdio>#include <cstring>#define ll long longusing namespace std;const int maxn = 1e6+5;const int mod = 1e9+7;using namespace std;ll quick_mod(ll a, ll b

2020-10-20 11:40:17 158

原创 输入输出流

1字符=2字节=16bits字符流-字节-整数-字符集-字符程序从外部获取数据需要使用输入流。输入流的指向称为它的源,程序通过输入流读取源中的数据。程序在处理数据后,可能需要将处理的结果写入到永久的储存媒介中或传送给其他的应用程序,这就需要输出流,输出流的指向称为它的目的地,程序通过输出流把数据传送到目的地。虽然I/O流经常与磁盘文件存取有关,但是源和目的地也可以是键盘、内存或显示器窗口。源 ----> 输入流使用read()方法读入源中的数据目的地 <----

2020-10-19 23:55:46 344

原创 卿学姐的b站视频

qscqesze

2020-10-17 00:15:51 11453

转载 scanf与EOF

while(~scanf("%d",&n))这个代表什么意思呢?while (~scanf("%d%d",&m,&n))什么用的?

2020-10-16 14:14:23 166

转载 ACM/IOI 历年国家集训队论文集和论文算法分类整理

https://blog.csdn.net/txl199106/article/details/49227067

2020-10-16 13:36:18 278

原创 迪杰斯特拉与spfa

比较全的一个博客https://www.cnblogs.com/wozuishuaiwozuiniu6/p/13178762.htmlspfaSPFA 算法是 Bellman-Ford算法 的队列优化算法的别称,通常用于求含负权边的单源最短路径,以及判负权环。SPFA 最坏情况下复杂度和朴素 Bellman-Ford 相同,为 O(VE)。洛谷P1462 【通往奥格瑞玛的道路】再被题面军搞懵一阵子后发现这貌似是一个求最大值最小的问题(还真是)。哦,找上界嘛,使这个上界在能跑到n点的情况下尽可能的

2020-10-14 23:53:54 219

原创 欧几里得gcd与拓展欧几里得exgcd

欧几里得算法求gcd辗转相除法 求两个数的最大公约数int gcd(int a,int b){ return b==0?a:gcd(b,a%b);}证明(来自百度百科)其计算原理依赖于下面的定理:定理:两个整数的最大公约数等于其中较小的那个数和两数相除余数的最大公约数。最大公约数(Greatest Common Divisor)缩写为GCD。gcd(a,b) = gcd(b,a mod b) (不妨设a>b 且r=a mod b ,r不为0)证法一a可以表示成a = kb + r

2020-10-14 23:39:12 226 1

转载 欧拉筛法(线性筛素数)

以下内容转自https://blog.csdn.net/Losk_0/article/details/87884390#include<cstdio>#include<cstring>using namespace std;int main(){ int n,cnt=0; int prime[10001]; //存素数 bool vis[10001];//保证不做素数的倍数 scanf("%d",&n); memset(vis,false,sizeof(vi

2020-10-14 23:21:54 202

原创 欧拉回路

起源——七桥问题:城中有七座桥,每座桥连接两座岛屿,如何不重复地走遍7座桥。欧拉转换成图问题:能否从无向图中的一个结点出发走出一条道路,每条边恰好经过一次,欧拉道路。一笔画问题。在欧拉道路中,除了起点跟终点,其他点的度数应该是偶数,七桥问题中存在四个点度数是奇数(奇点)。充分条件:如果一个无向图是连通的,且最多只有两个奇点,则一定存在欧拉道路。如果是两个奇点,一个起点,一个终点;如果不存在奇点,那么任意点出发,都会回到该点(欧拉回路)。有向图的结论:最多只有两个点的入度不等于出度,而且必须是其中一个

2020-10-14 22:55:54 848

原创 拓扑排序

拓扑排序练习:给任务排序(UVA10305)如果图中有环则不存在拓扑排序,反之则存在。不包含有向环的有向图称为有向无环图(Directed Acyclic Graph, DAG)假设有n个变量,还有一个二元组(u,v) 分别表示变量u小于v。那么所有的变量从小到大排列起来是什么样子的呢?例如,有4个变量a,b,c,d 已知 a < b, c < b, d < c 那么可能是 a < d < c < b 也可能是 d < a < c < b,输出任意一

2020-10-14 19:07:37 222

原创 STL初步

排序与检索:sort(a,a+n);sort(v.begin(),v.end());lower_bound 查找大于或者等于x的第一个位置unique函数可以删除有序数组中的重复元素不定长数组:vectora.clear();清空函数a.empty():测试是否为空a.size():a.resize();改变大小a.push_back(); 向尾部添加元素a.pop_back();删除最后一个元素是一个模板类,声明形式vector集合:set安迪的第一个字典(Andy’s Fir

2020-10-14 18:31:38 93

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除