![](https://img-blog.csdnimg.cn/20201014180756927.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
推荐系统
文章平均质量分 57
晓源Galois
找工作状态
展开
-
推荐系统|行为序列_用户行为序列建模、Din模型和SIM模型
由于序列过大会造成运算次数的增加,而固执地采用后N个则会无法保持长期兴趣的数据,所以可以在保证序列长度固定的前提下,对N个挑选出来的对象进行操作。物品ID通过Embedding将会得到一个向量,性质差不多的向量在空间中也会处于差不多的位置,可以用取平均方式得到一个综合所有向量的向量。而这个所占的重量/占比,是需要和要查询的候选向量进行比较来得出,也就是所谓的相似度,相似度越大,受其影响也会越大。所谓的LastN是一种普通版本的平均,他考虑到了每一个物品,但并未考虑到每一个物品所占的重量。原创 2024-02-12 16:29:34 · 567 阅读 · 0 评论 -
推荐系统|概要01_推荐系统的基本概念
以上指标都是短期指标,若盲目提高这些短期指标来进行推送,将在短时期内精确给用户推送感兴趣的内容,但会使得推送陷入同质化的弊病(收敛到相似的节目?),是一种榨干用户兴趣,而非培养用户习惯的短视行为。原创 2024-01-30 22:51:11 · 331 阅读 · 0 评论 -
推荐系统|概要03_AB测试
因为推荐链路包括召回、粗排、精排和重排四个阶段,每个阶段都可以尝试新的模型,也可以说每个阶段可以由不同的部门进行负责,而每一个部门都可以提出使用A/B测试的请求(领走一批用户作为测试),所以有可能用户是不够用的。其中小流量是指对部分的用户先尝试改进的算法模型,而非全部。若为全部,如果算法模型存在问题,可能会导致用户体验差,导致用户流失,而小流量的损失代价相对小。互斥,不要同时对同一层的同一批/桶用户施加两种不同的策略,这种实际应该只能算是一种策略——两种策略叠加成一种混合策略。也可以在小流量中先进行确定。原创 2024-02-02 00:51:23 · 317 阅读 · 0 评论 -
推荐系统|召回_Swing召回通道
swing模型是ItemCF的一种改造。原创 2024-02-01 00:39:46 · 459 阅读 · 0 评论 -
推荐系统|排序01_多目标模型
由于每一个目标对应一个交叉熵,所以多个目标对应多个交叉熵,所以可以考虑将多个交叉熵之和来作为整体的损失函数。统计特征既包括对用户的统计,也包括了对物品的统计(该物品的购买量,转发量等等)。预估是指通过已有数据训练得到的模型,从而能够预测某一用户对某篇文章的行为。负样本减少,总体样本减少,但正样本的个数仍是不变,所以总体的点击率会下滑。而处理成这个校准公式的好处是,无需知道具体的负样本和正样本个数。正负样本是根据是否产生有进一步进行推送的必要而定义的。原创 2024-01-31 18:03:00 · 363 阅读 · 0 评论 -
推荐系统|排序02_MMOE
MMOE是指Multi-gate Mixture-of-Experts注意看Expert后面加了s,说明了有多个专家。而在MMOE中专家是指用来对输入特征计算的神经网络,每个神经网络根据输入计算出来的向量都会有所不同。原创 2024-01-31 20:00:18 · 245 阅读 · 0 评论 -
推荐系统|排序03_预估分数融合
方法就是乘上对应的权重。时,再让他去乘上对应曝光次数,即可得到商家获得利润💰。原创 2024-02-01 11:05:13 · 201 阅读 · 0 评论 -
推荐系统|召回04_离散特征处理
从one-hot到Embedding,已经节省了很多的存储空间,但当数据量大的时候,还是占空间,所以工业界仍会对Embedding进行优化。而Embedding并不是完全和One-Hot向量脱离关系,可以通过One-Hot向量进行存取对应的向量。这种位置信息会使得性质类似的物品更加聚合到一块去,而性质差异较大的物品在空间上更加分散。而一个物品所对应的Embedding参数是通过训练来得到的。参数是值得训练的,因为参数实际上代表着向量的位置信息。原创 2024-02-10 20:49:26 · 222 阅读 · 0 评论 -
推荐系统|召回05_矩阵补充、最近邻查找
如果数据库内存放过多的物品,所对应的内积计算次数将会很多,随之而来还有排序带来的时间消耗。通过用户ID和物品ID分别找到对应的向量,然后去做内积,内积的数值可以去衡量匹配的程度。不共享参数的意思是指用户ID和物品ID使用不同的Embedding Layer。抽出用户和物品,将他们进行计算,作为预测值,并将其与y作差再平方来作为误差。若为灰色,则说明该用户尚未对该作品进行评分,这也是矩阵补充要补充的元素。以上采用的是余弦相似度,即点的角度相似的,类型相似。第i行第j列表示i个用户对第j个作品的评分。原创 2024-02-11 10:03:20 · 416 阅读 · 0 评论 -
推荐系统|2.4 矩阵分解的目的和效果
由于分解完,再复原回去,其实也可以将原本空白的位置填上数据,进而也达到了预测的效果。规模大小的矩阵,经过分解后可得到两个矩阵一个是。注意,分解是以一种近似的情况来进行分解。原创 2024-01-21 11:01:15 · 493 阅读 · 0 评论 -
推荐系统|1.3 相似度计算与推荐实例
比如sim(i,j)代表第i不电影和第j部电影的相似度,如果越相近,则评分将会越相像,且如果两者不像的话,甚至会起到负作用。二维矩阵中的第i行表示的第i首歌曲在各个用户的评价,而第j列代表的是第j个用户对各个歌曲的评价。可以先行计算电影之间的相似度,并借由电影之间的相似度,预测电影的评分。如上图,整张二维表是有所空缺的,也就是说一些歌曲的评价信息是不全的。原创 2024-01-21 01:42:09 · 822 阅读 · 0 评论 -
推荐系统|2.1 协同过滤与矩阵分解简介 2.2 协同过滤
再者,平台中的新用户,相当于一张没有数据的白纸,是没有办法分析其数据,与已有数据产生联系,来产生对其的商品推送。数据稀疏,是指毕竟顾客只是购买摆放出来的商品的极少部分,而在存储上,如果采用一般的方法,将浪费大量的空间。同时,人的购买意愿可能受到生活中各种因素的影响,可能预判的购买意愿并不符合实际情况。比如说评论,评论包括好评和差评,需要进一步分析其情感倾向,才会有所意义。比如说婴幼产品,A买了奶粉和尿布,未来大概率还是会去买摇篮和奶嘴等等。而用户A只买了商品b、c,可以预设用户A将来有可能会购买a和d。原创 2024-01-20 17:25:24 · 596 阅读 · 0 评论 -
推荐系统|物品冷启动01_优化目标&评价(包括基尼系数)
不管是讨论这个作者发了多少,抑或是,这个作者有发过,都表明了这个作者愿意在这个平台进行发布。没有口碑,在店起步的时候,就往往难以凭借名声来吸引客人,更多的是用好奇来招揽客人。大力扶持低曝光新笔记,相当于会使得用户看不到内容相对成熟的笔记,有可能会导致用户侧指标变坏,用户流失。这里的基尼系数是针对新笔记内部来说的,其数值可以用于思考捧起部分新笔记的同时,是否会极力打压其他新笔记,从而抑制到其背后的创作者。原创 2024-02-10 12:34:34 · 339 阅读 · 0 评论 -
图神经网络X项目|基于图神经网络的电商行为的预测(10%)
第二步,刚开始这些点并没有图的编号(有session_id,但并不是一个方便建图的编号),于是可以采取按某一个关键字进行排序的方法,按大小给图上的节点进行重新编号。表示的是某次会话下的某个操作,category代表购买情况,其中0代表未购入,1代表购入。考虑复用性的话,记得将构造出来的数据集进行保存。应用场景:数据集过多,抽取部分数据进行观察。可以选取出列表/集合中的其中一项。表示的是某次会话的编号,而。应用场景:可用于熟悉操作。工具:使用分片进行操作。应用场景:可以可视化进度。后几步,开始制作边集。原创 2024-01-22 21:44:17 · 644 阅读 · 0 评论