论文阅读
文章平均质量分 79
凝眸伏笔
纵然伤心也不要愁眉不展,因为你不知道谁会爱上你的笑容。
展开
-
论文阅读|Embedding-based Retrieval in Facebook Search
本文有一些经验值得借鉴和思考,但比起结论更重要的是思维的方法,比如为什么要做hard mining,自己的场景哪些数据值得hard mining,自己系统中召回问题最关键的是样本、架构还是数据流,只有先定义了问题才能做ROI最高的优化。原创 2022-12-13 22:49:35 · 1079 阅读 · 1 评论 -
论文笔记|DeepWalk
简介DeepWalk是由,和在2014年提出的,它是一种基于图的无监督特征学习方法,它有趣的点是将文本处理任务中词向量的处理思想迁移到了图特征学习上,就像处理句子得到word embedding一样,通过处理由网络中节点组成的序列从而得到Node embedding,算是图特征学习的开山之作。 示例的输入是一个网络,输出是图中每个节点的二维向量,DeepWalk通过截断随即游走学习出一个网络的社会表示,从两张图的对比也可以发现,越是在网络中拓扑结构相近的点,其对应的二维向量在二维空间上的距离越近。文章中提出原创 2022-12-07 11:43:46 · 715 阅读 · 1 评论 -
【论文阅读】增量协同过滤
协同过滤最大的问题是计算量过大,为了解决这个问题,衍生了基于增量更新的协同过滤方法。原创 2022-02-23 23:25:47 · 619 阅读 · 0 评论 -
【论文阅读】去偏、缓解数据稀疏的多任务因果推荐CVR优化
论文名字:《LARGE-SCALE CAUSAL APPROACHES TO DEBIASING POST-CLICK CONVERSION RATE ESTIMATION WITH MULTI-TASK LEARNING 》2020,阿里和一些大学联合发表,汉语可翻译为:基于多任务学习的大规模因果方法去偏转化率估计...原创 2022-02-15 22:33:56 · 2499 阅读 · 0 评论 -
ESMM阅读笔记
论文:《Entire Space Multi-Task Model: An Effective Approach for Estimating Post-Click Conversion Rate》阿里,20181.motivation不同于CTR预估问题,CVR预估面临两个关键问题:Sample Selection Bias (SSB)转化是在点击之后才“有可能”发生的动作,传统CVR模型通常以点击数据为训练集,其中点击未转化为负例,点击并转化为正例。但模型预测时,则是对整个空间的样本进行预.原创 2022-02-14 23:30:05 · 520 阅读 · 0 评论 -
LinkedIn在留存指标相关性因素上的探索--找寻可量化的影响因素
1.尽早选择一个成功指标是非常重要的,因为如果没有它,就很难取得进展。对于成功指标,通常有很多选择,但最好选择一个与产品使命相符且易于观察的指标。2.训练一个具有大量成员特征的简单相关模型,有助于缩小可能干预的搜索空间。3.改变与成功指标密切相关的功能的价值并不一定会改善成功指标;因此,最好是通过观察的因果分析来评估每个强相关特征值的任何变化对成功度量的影响。4.当试图改变特征的值时,干预措施需要仔细设计,因为这些特征会对成功度量产生很大的预期影响。最好是将成功指标的最大化作为一个目标添加到系统原创 2021-11-25 21:42:53 · 2236 阅读 · 0 评论 -
论文阅读图片和文本联合训练:IMAGEBERT: CROSS-MODAL PRE-TRAINING WITH LARGE-SCALE WEAK-SUPERVISED IMAGE-TEXT DATA
论文地址:https://arxiv.org/abs/2001.07966v1https://arxiv.org/abs/2001.07966v1摘要:介绍了一种新的视觉语言预训练模型ImageBERT 用于图像-文本联合表示。使用基于Transformer [1]的模型,该模型采用不同的模态(模态指代图片or文本)作为输入并对它们之间的关系进行建模。该模型同时针对四个任务进行了预训练:蒙版语言建模(MLM),蒙版对象分类(MOC),蒙版区域特征回归(MRFR)和图像文本匹配(ITM)。为了进一步.原创 2021-09-13 22:55:36 · 2912 阅读 · 0 评论 -
文本分类方法TextCNN原理介绍
一句话:先将文本分词做embeeding得到词向量, 将词向量经过一层卷积,一层max-pooling, 最后将输出外接softmax 来做n分类。textCNN是什么TextCNN是利用卷积神经网络对文本进行分类的算法。由 Yoon Kim 在 “Convolutional Neural Networks for Sentence Classification” 中提出,是2014年的算法。该论文的motivation:深度学习模型在计算机视觉与语音识别方面取得了卓越的成就. 在 NLP.原创 2021-09-05 23:03:32 · 844 阅读 · 0 评论 -
论文阅读:CogLTX: Applying BERT to Long Texts
总结:清华大学和阿里联合发布论文使用BERT解决长文本问题。bert在长文本处理一般分为三种方法:截断法、Pooling法、压缩法。本文用的是效果最好的压缩法。摘要BERT不能处理长文本,因为它的内存和时间消耗呈二次增长。解决这个问题的最自然的方法,如用滑动窗口对文本进行切片,或者简化transformer,使用不充分的长范围attention,或者需要定制的CUDA内核。BERT的最大长度限制提醒我们人类工作记忆的容量是有限的(5个∼9个区块),那么人类是如何认知长文本的呢?本文提出的CogL原创 2021-08-05 23:04:01 · 610 阅读 · 0 评论 -
类别不平衡分类:CReST: A Class-Rebalancing Self-Training Framework for Imbalanced Semi-Supervised Learning
一句话总结:分类问题中的两大难题:1.类别不平衡2.标注数据少,半监督学习这篇文章,将这两个问题都包含进来了,那么看看作者是如何处理这两大难题。参考:1.论文地址:https://arxiv.org/abs/2102.095592.解说:https://zhuanlan.zhihu.com/p/360067653...原创 2021-07-10 21:22:49 · 911 阅读 · 0 评论 -
论文阅读 BERT4Rec: Sequential Recommendation with Bidirectional Encoder Representations from Transformer
一句话总结:采用深层的双向自注意力来对用户行为序列进行建模。参考:1.论文下载地址:https://arxiv.org/pdf/1904.06690.pdf2.代码:https://github.com/FeiSun/BERT4Rec3.翻译较好的博客:https://blog.csdn.net/qq_27590277/article/details/109396779...原创 2021-06-17 23:13:21 · 1223 阅读 · 4 评论 -
Bert系列:论文阅读Rethink Training of BERT Rerankers in Multi-Stage Retrieval Pipeline
一句话总结:提出Localized Contrastive Estimation (LCE),来优化检索排序。参考:1.作者代码:https://github.com/luyug/Reranker2.论文:https://arxiv.org/abs/2101.08751原创 2021-06-10 22:07:25 · 754 阅读 · 0 评论 -
Bert系列:论文阅读Learning-to-rank with bert in tf-ranking
首次使用bert做query和documents的 排序工作。原创 2021-06-06 11:53:31 · 1384 阅读 · 1 评论 -
Bert系列:BERT(Bidirectional Encoder Representations from Transformers)原理以及hugging face介绍
1.预训练语言模型的发展史2018年,BERT被正式提出。下图1回顾了近年来预训练语言模型的发展史以及最新的进展。预训练语言模型的成功,证明了我们可以从海量的无标注文本中学到潜在的语义信息,而无需为每一项下游NLP任务单独标注大量训练数据。此外,预训练语言模型的成功也开创了NLP研究的新范式[6],即首先使用大量无监督语料进行语言模型预训练(Pre-training),再使用少量标注语料进行微调(Fine-tuning)来完成具体NLP任务(分类、序列标注、匹配关系判断和机器阅读理解等)。图1.原创 2021-04-30 21:12:54 · 2211 阅读 · 2 评论 -
youtobe视频推荐 Recommending What Video to Watch Next: A Multitask Ranking System
总结:提出一个大规模的多目标排序在“what video to watch next”这个工业界的推荐场景下。主要是使用了软参数共享技术Multi-gate Mixture-of-Experts,同时通过W&D结构解决了选择性偏差问题。abstract本文主要介绍大规模多目标推荐系统,在视频分享平台上,研究哪个视频会被推荐放在首位。应用中的挑战:一个是多个目标之间竞争,可以理解为不能既要又要还要,多个目标之间,可能只有个别目标能最优;另一个是用户反馈的隐式选择偏差,这个选择偏差因人而异。原创 2021-03-24 23:12:36 · 666 阅读 · 0 评论 -
图片文本检测-FOTS
简单概括:FOTS是一个快速的端对端的文字检测与识别框架,通过共享训练特征、互补监督的方法减少了特征提取所需的时间,从而加快了整体的速度。其整体结构如图所示:卷积共享:从输入图象中提取特征,并将底层和高层的特征进行融合;文本检测:通过转化共享特征,输出每像素的文本预测;ROIRotate:将有角度的文本块,通过仿射变换转化为正常的轴对齐的本文块;文本识别:使用ROIRotate转换的区域特征来得到文本标签。FOTS是一个将检测和识别集成化的框架,具有速度快、精度高、支持多角度等优原创 2021-03-24 23:05:52 · 445 阅读 · 0 评论 -
learning rate对深度模型的影响:论文阅读Cyclical Learning Rates for Training Neural Networks
参考1.论文:Cyclical learning rates for training neural networks翻译 2020-08-19 19:59:18 · 763 阅读 · 0 评论 -
【论文阅读】BST :Behavior Sequence Transformer for E-commerce Recommendation in Alibaba
一句话总结:BST对用户对历史行为进行编码同时模仿原文将商品对应的时间信息也通过编码加入到模型中。在DIN部分,我们开始关注到了用户的历史点击等行为信息,但是从DIN的设计中,我们发现DIN在处理序列问题时较好地考虑了用户的历史购买商品信息,也将现有的商品或者广告和历史点击的商品或广告进行attention来捕获用户的多兴趣,取得了非常不错的效果,但是DIN的设计忽略了用户兴趣的变化等信息,未能较好地捕捉序列信息。BST简介BST对用户对历史行为进行编码同时模仿原文将商品对应的时间信息也通.原创 2020-06-15 21:45:40 · 795 阅读 · 0 评论 -
【论文阅读】AutoInt: Automatic Feature Interaction Learning via Self-Attentive Neural Networks(CIKM,19)
一句话总结:继交叉特征之后加入特征筛选(交叉特征的扩展)。Self-Attention会先计算每个embedding向量和其他向量的相关系数,然后再用所有向量的系数乘上自己的embedding作为下一层的输入,所以我们可以计算得到每个向量和其他向量的关系,再将相关性强的特征进行组合,作为新的特征。写在前面:传统的推荐算法,从LR,Poly2,FM,FFM,这些方法基本都还是基于二阶交叉,随着DNN的发展,有了词的embedding,我们开始尝试用堆叠网络层的方案来获取深度的特征交叉,于是在中间几年更原创 2020-08-06 00:08:56 · 1622 阅读 · 0 评论 -
【矩阵分解七】论文阅读MATRIX FACTORIZATION TECHNIQUES FOR RECOMMENDER SYSTEMS
总结:该论文将构造rating矩阵的多中种方式都讲述了一遍。主要讲ALS在优化参数时,优于SGD的方面,体现在对预测rui的组成部分的逼近。原创 2020-05-28 19:42:53 · 1375 阅读 · 0 评论 -
Linear Regression for Face Recognition
Linear Regression for Face RecognitionIEEE TRANSACTIONS ON PATTERN ANALYSIS AND MACHINE INTELLIGENCE, VOL. 32, NO. 11, NOVEMBER 2010作者:Imran Naseem,Roberto Togneri, Senior Member, IEEE, and Mohamm原创 2020-04-07 15:37:41 · 1009 阅读 · 0 评论 -
【论文阅读】推荐算法之基础 Amazon.com Recommendations Item-to-Item Collaborative Filtering
写在前面:基于位置的业务场景和不考虑位置信息只考虑相关性或者说相似程度的业务场景,使用item2item的方式还不太一样。举个例子,餐饮中,用户吃饭,不会跑个三五十公里,就算三五十公里外的那个item与用户之前喜欢的item相似度很高,我觉得用户应该不会过去。因此基于位置的业务场景,很大一部分需要考虑距离因素,那么可行的一条路便是:在构建item2item的相似矩阵时,加入距离元素。具体如何加...转载 2019-04-23 19:54:29 · 3773 阅读 · 0 评论 -
【论文阅读及实现】Applying Deep Learning To Airbnb Search
兴趣点:1.文章中的特征处理和分析方式。因为平时使用特征的时候,很少进行分析,很少使用大量样本的特征进行拟合分布处理,并且这种操作能够去除异常样本,这点吸引我。2.不同模型之间的嫁接处理。@20190310@阅读论文https://arxiv.org/pdf/1810.09591.pdf论文阅读可以参考这篇博客地址:https://blog.csdn.net/srdlaplac...原创 2019-03-19 19:51:11 · 479 阅读 · 0 评论