自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

  • 博客(15)
  • 资源 (5)
  • 收藏
  • 关注

原创 《搜索和推荐中的深度匹配》——2.2 搜索和推荐中的匹配模型

接下来,我们概述搜索和推荐中的匹配模型,并介绍潜在空间中的匹配方法。

2021-05-28 16:39:43 471

原创 《搜索和推荐中的深度匹配》——经典匹配模型 2.1 匹配学习

最近,研究人员发现,传统的IR中的单变量评分模式是次优的,因为它无法捕获文档间的关系和本地上下文信息。与其他监督学习问题类似,我们可以将学习匹配的目标定义为最小化损失函数,该函数表示匹配函数在训练数据和测试数据上可以达到多少精度。,N是训练数据的大小。在搜索中,x上的特征可以是查询x的语义类别,y上的特征可以是PageRank分数和文档y的URL长度。的函数,其中x和y分别是查询中的查询和文档以及推荐中的用户和项目。定义的特征可以是传统IR中的BM25,也可以是传统机器学习或深度学习中学习的函数。

2021-05-18 15:23:51 1377 2

原创 深度推荐模型——BERT4Rec [CIKM 19][Alibaba]

2、BST有target item 输入,是二分类的匹配模型。1、BERT4Rec引入了BERT 预训练预测MASK Token的方式,提升了模型的泛化性。可以先参阅阿里的另外一篇论文。

2021-05-18 11:32:23 445

原创 图神经网络——【KDD 2019】KGAT

深度推荐算法(如DeepFM等)模型有个缺点:将训练数据里(用户交互数据)的特征进行独立建模,没有考虑到交互数据之间的关系。这使得这些模型不足以从用户的行为中提取出基于属性的协同信息。如上图:用户u1 看了电影i1 ,这个电影是 ei 导演的,传统的CF方法会着重去找那些也看了电影i1 的用户,比如u4、u5 。而监督学习方法会重点关注那些有相同属性ei 的电影,比如 i2。很显然这两类信息都可以作为推荐信息的补充,但是现有的模型不能做到上面两者信息的融合,而且这里的高阶关系也可以作为推荐信息的补充的。比

2021-05-17 19:04:33 587

原创 《搜索和推荐中的深度匹配》——1.5 近期进展

尽管传统的机器学习在搜索和推荐匹配方面取得了成功,但深度学习的最新进展为该领域带来了更为重大的进步,提出了许多深度匹配模型。深度学习模型的能力在于能够从原始数据(例如,文本)中学习匹配问题的分布式表示形式,避免手工制作功能的许多限制,并以端到端的方式学习表示形式和匹配网络。此外,深度神经网络具有足够的能力来对复杂的匹配任务进行建模。它们具有灵活性,可以自然地扩展到跨模式匹配,在这种模式下,可以学习通用语义空间来普遍表示不同模式的数据。所有这些特征有助于处理搜索和推荐的复杂性。

2021-05-17 17:26:58 217

原创 图神经网络——【SIGIR 2019】NGCF

从早期的矩阵分解到最近出现的基于深度学习的方法,现有的工作通常通过从描述用户(或项目)的现有特性(如ID和属性)映射来获得用户(或项目)的嵌入。作者认为,这种方法的一个固有缺点是,隐藏在用户-项目交互中的协作信号没有在嵌入过程中编码。因此,由此产生的嵌入可能不足以捕获协作过滤效果。作者提出了一个新的推荐框架Neural Graph Collaborative Filtering (NGCF) ,它可以在图结构中学习嵌入表示,让模型可以表达高维特征,显示地将协同过滤信号放入到嵌入过程中。

2021-05-17 11:56:20 545

原创 图神经网络——【KDD 2018】PinSage

可以先参阅。本文将基于GraphSAGE来讲讲PinSage。

2021-05-14 17:40:43 657

原创 图神经网络——【NIPS 2017】GraphSAGE

直推式(transductive)学习方法是在一个固定的图上直接学习每个节点embedding,但是大多情况图是会演化的,当网络结构改变以及新节点的出现,直推式学习需要重新训练(复杂度高且可能会导致embedding会偏移),很难落地在需要快速生成未知节点embedding的机器学习系统上。本文提出归纳学习—GraphSAGE(Graph SAmple and aggreGatE)框架,通过训练聚合节点邻居的函数(卷积层),使GCN扩展成归纳学习任务,对未知节点起到泛化作用。

2021-05-14 14:14:01 456 1

原创 《搜索和推荐中的深度匹配》——1.4 推荐匹配的挑战

不匹配的问题在推荐中更加严重。在搜索中,查询和文档由相同语言的术语组成,这使得对它们的术语进行直接匹配至少有意义。但是,在推荐中,用户和商品通常由不同类型的特征表示,例如,用户的特征可以是用户ID,年龄,收入水平和最近的行为,而商品的特征可以是商品ID,类别,价格和品牌名称。由于用户和项目的特征来自不同语义的空间,因此基于表面特征匹配的幼稚方法不适用于推荐。更具挑战性的是,这些商品可以通过多模式特征来描述,例如服装产品的图像和电影的封面图像,它们可能在影响用户的决策中起关键作用。

2021-05-13 15:36:33 242

原创 多任务学习——【SIGIR 2018】ESMM

由于CTR任务的训练样本量要大大超过CVR任务的训练样本量,ESMM模型中特征表示共享的机制能够使得CVR子任务也能够从只有展现没有点击的样本中学习,从而能够极大地有利于缓解训练数据稀疏性问题。点击—>转化,本身是两个强相关的连续行为,作者希望在模型结构中显示考虑这种“行为链关系”,从而可以在整个空间上进行训练及预测。在整个样本空间建模,而不像传统CVR预估模型那样只在点击样本空间建模。

2021-05-11 14:28:18 184

原创 多任务学习——【KDD 2018】MMoE

多任务学习的的框架广泛采用 shared-bottom 的结构,不同任务间共用底部的隐层。这种结构本质上可以减少过拟合的风险,但是效果上可能受到任务差异和数据分布带来的影响。也有一些其他结构,比如两个任务的参数不共用,但是通过对不同任务的参数增加 L2 范数的限制;和 shared-bottom 结构相比,这些模型对增加了针对任务的特定参数,在任务差异会影响公共参数的情况下对最终效果有提升。多任务模型通过学习不同任务的联系和差异,可提高每个任务的学习效率和质量。是最原始的多任务学习模型。

2021-05-10 19:50:19 228

原创 多轮检索式对话——【CIKM 2019】IMN

受ELMo网络的影响,作者使用了多层BiLSTM表示多个utterance,作者将这个网络模块命名为attentive hierarchical recurrent encoder(AHRE)。

2021-05-04 18:55:57 307

原创 多轮检索式对话——【IJCAI 2019】DGMN 基于文档背景的个性化对话

这里的人物设定被写在一个document中,即document-grounded。用CNN从3个匹配矩阵中抽取匹配向量,连接起来,预测匹配度。就是在用Self-Attention。

2021-05-03 15:19:54 434 1

原创 多轮检索式对话——【WSDM 2019】MRFN

本文的Motivation是建立在最近几年多轮检索式对话基于的面向交互的思想是。回想一下从引入交互,到完全基于交互,再到多层交互。交互的粒度越多越work已经是大家的共识了。但如何更好的设计各个粒度之间的层次关系,减少不必要的性能浪费呢?作者提出把粒度划分为word, short-term, long-term三个粒度6种表示:WordContextualAttention-based(和DAM一样)

2021-05-02 16:31:04 490 1

原创 多轮检索式对话——【ACL 2018】DAM

文本对于context和response语义上的联系更进一步,将 attention 应用于多轮对话,打破之前的 RNN 和 CNN 结构,在多轮上速度快,达到了目前最好效果。有n句utterance,Q就有有n个切片。对应n个utterance-response对的匹配矩阵, 每一片的尺寸都是(n_u_i, n_r)对应匹配矩阵中每个矩阵的尺寸。主要用到:self-attention 和 cross-attention。

2021-05-01 17:03:58 297 1

SMP2020微博情绪分类技术评测数据集

SMP2020微博情绪分类技术评测数据集 本次技术评测使用的标注数据集由哈尔滨工业大学社会计算与信息检索研究中心提供,原始数据源于新浪微博,由微热点大数据研究院提供,数据集分为两部分。     第一部分为通用微博数据集,该数据集内的微博内容是随机获取到微博内容,不针对特定的话题,覆盖的范围较广。     第二部分为疫情微博数据集,该数据集内的微博内容是在疫情期间使用相关关键字筛选获得的疫情微博,其内容与新冠疫情相关。     因此,本次评测训练集包含上述两类数据:通用微博训练数据和疫情微博训练数据,相对应的,测试集也分为通用微博测试集和疫情微博测试集。参赛成员可以同时使用两种训练数据集来训练模型。     每条微博被标注为以下六个类别之一:neutral(无情绪)、happy(积极)、angry(愤怒)、sad(悲伤)、fear(恐惧)、surprise(惊奇)。     通用微博训练数据集包括27,768条微博,验证集包含2,000条微博,测试数据集包含5,000条微博。     疫情微博训练数据集包括8,606条微博,验证集包含2,000条微博,测试数据集包含3,000

2022-12-29

jblas-1.2.4-SNAPSHOT

里MLlib库需要依赖[jblas线性代数库](http://jblas.org/),如果大家编译jblas的jar包有问题,可以获取。把jar包加到lib文件夹后,记得在spark-env.sh添加配置

2016-06-26

Spark机器学习文本处理数据集

为了说明概念,我们将使用一个非常有名的数据集,叫作20 Newsgroups;这个数据集一般用来做文本分类。这是一个由20个不同主题的新闻组消息组成的集合,有很多种不同的数据格式。对于我们的任务来说,可以使用按日期组织的数据集。

2016-06-20

Spark机器学习推荐模型数据集

我们将使用推荐引擎中使用的电影打分数据集,这个数据集主要分为三个部 分:第一个是电影打分的数据集(在u.data文件中), 第二个是用户数据(u.user),第三个是电影数据(u.item)。除此之外,我们从题材文件中获取了每个电影的题材(u.genre)。

2016-06-18

Spark机器学习回归模型数据集

为了阐述本章的一些概念,我们选择了bike sharing数据集做实验。这个数据集记录了bike sharing系统每小时自行车的出租次数。另外还包括日期、时间、天气、季节和节假日等相关信息。

2016-06-15

Spark机器学习分类模型的数据集

考虑到推荐模型中的 MovieLens 数据集和分类问题无关,本章将使用另外一个数据集。这个 数据集源自 Kaggle 比赛,由 StumbleUpon 提供。比赛的问题涉及网页中推荐的页面是短暂(短暂 存在,很快就不流行了)还是长久(长时间流行)。

2016-06-15

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除