- 博客(84)
- 资源 (1)
- 收藏
- 关注
原创 RecSys‘21阿里 表征去噪,并提取用户长期兴趣Denoising User-aware Memory Network for Recommendation
现在越来越多的推荐模型开始利用用户的点击序列来发掘用户的兴趣,本文主要是关注用户的如何在序列表征中去噪,并对用户的长期兴趣进行发掘建模,从而提出user-aware memory network (DUMN).背景阿里之前已经提出过很多利用用户历史点击序列来建模进行推荐的模型,比如DIEN,DIEN等等。但是这些方法都没有考虑到序列中的噪声对表征的影响,并且通常我们使用用户的短序列建模后可以发掘用户的短期兴趣,而如果想要挖掘用户的长期兴趣则需要更长的序列,而这会导致很大的内存和计算消耗,并且从用.
2021-10-12 22:06:12 695
原创 KDD‘21华为数值型特征做embedding,An Embedding Learning Framework for Numerical Features in CTR Prediction
![image.png](https://img-blog.csdnimg.cn/img_convert/9f5e46856e59bab63d7a2a3f6e355ef4.png#clientId=u0fda268d-c8bb-4&from=paste&height=106&id=u229c3430&margin=[object Object]&name=image.png&originHeight=211&originWidth=1198&o
2021-10-11 22:41:08 930
原创 KDD‘21推荐系统离散特征表征无embedding table Learning to Embed Categorical Features without Embedding Tables for
本文是针对推荐系统中离散特征的embedding方法提出了新的改进方案。这里主要会涉及到one-hot编码和hash,不明白的小伙伴可以先学习一下。背景embedding在推荐系统中也是属于重要的一步,好的embedding可以节省空间,时间,并且达到好的推荐效果。现存的embedding方法可以统一概括为以下步骤:现存的大部分embedding都是基于one-hot,这里以one-hot为例,先将原始数据例如“性别包含男,女”则one-hot就是2维,到这就是encoding,然后得到男或女的o.
2021-10-10 16:45:11 486
原创 SIGIR‘21因果推断——不要把流行度偏差一棍子打死Causal Intervention for Leveraging Popularity Bias in Recommendation
Causal Intervention for Leveraging Popularity Bias in Recommendationhttps://arxiv.org/pdf/2105.06067.pdf背景本文所提方法针对召回阶段所用方法。之前的工作考虑的是如何缓解流行偏差带来的问题,包括IPS,causal embedding等,而本文考虑的是直接缓解流行偏差而不是流行偏差带来的影响。并且本文考虑到“不是所有流行偏差都是有害的”,流行的item可以反映这个item的趋势和内在特性。而我们..
2021-10-08 21:28:34 2087 1
原创 www21推荐系统之点击原因分解:用户兴趣和一致性(流行度)Disentangling User Interest and Conformity for Recommendation with Cau
Disentangling User Interest and Conformity for Recommendation with Causal Embeddinghttp://staff.ustc.edu.cn/~hexn/papers/www21-dice.pdf背景本文依旧是利用因果推断相关理论进行推荐系统纠偏的一篇文章,相关详细例子可以前往deconfounded中的“举个栗子”进行查看。这里进行简述,作者分析在用户购物的过程中,用户点击某个商品,一方面可能是因为他对这个感兴趣,另一方..
2021-10-06 22:24:43 1562
原创 推荐系统(五)——SIGIR‘21用反事实推断缓解点击诱饵,还在为标题党烦躁吗?请看这篇文章
Clicks can be Cheating: Counterfactual Recommendation for Mitigating Clickbait Issuehttps://dl.acm.org/doi/pdf/10.1145/3404835.3462962本文将用到以下相关知识:反事实推断TE、NDE、TIE背景在生活中,无论我们用什么软件(购物、资讯等),都会遇到这样的情况:看到的封面和标题跟点进去的内容不匹配,即标题党。而这些欺骗性的信息会使用户体检变差,而因为用户之前由..
2021-10-04 20:36:20 1043
原创 推荐系统(四)——因果效应uplift model系列模型S-Learner,T-Learner,X-Learner
在之前的文章中我们介绍了使用因果推断中的去除混杂和反事实的相关理论来纠正推荐系统中的偏差问题。在这篇文章中主要和大家分享uplift model相关知识和方法。例子小夏的商铺在上次请了明星代言后,销量有所上升,但是他不清楚是不是每个人都对这个明星感冒,有的用户可能没看到广告也打算购买。如果小夏可以给部分用户推送明星代言广告,就可以节约一些成本了(机智的小伙伴可能已经发现了,这里就是一个反事实推断的过程,即如果不展示广告会是什么样呢?)。这里就可以用uplift model来建模。基础知识uplift
2021-10-02 16:36:04 7898
原创 推荐系统(三):推荐系统中常见多任务模型MMOE,ESMM,CGC,AITM
在实际生活中,我们关注的任务往往是一对多的,例如推荐系统场景中,我们希望物品的点击率和转化率都要高,如果只是单纯的集中于优化某一个目标,往往会导致其他被忽略的目标变差。多任务学习通过共享目标之间的表征,优化多个任务的目标,从而改善多个任务的模型性能,因此多任务模型在推荐系统中很常见。这次和大家分享其中常见的几种多任务模型MMOE,ESMM,CGC,AITM,文末给出了参考文献,有兴趣的小伙伴可以从论文中获取详细内容。Hard-parameter sharing图...
2021-09-27 20:21:25 5671
原创 推荐系统+因果推断(二)——kdd‘21用反事实推理缓解召回阶段的数据流行度偏差Model-Agnostic Counterfactual Reasoning for EliminatingPopu
Model-Agnostic Counterfactual Reasoning for Eliminating Popularity Bias in Recommender Systemhttps://dl.acm.org/doi/pdf/10.1145/3447548.3467289本文中将会用到因果推断中反事实部分的知识,具体内容可以查看之前的文章,这里就不对反事实相关内容重复叙述了。背景背景和上一篇的背景类似,都是为了解决流行数据偏差问题。想要详细了解例...
2021-09-25 12:21:22 2475
原创 秋招简单总结,蚂蚁,百度,华为,美团,b站,字节跳动
虽然秋招还在如火如荼的进行中,不过我的秋招估计就差不多结束了,拿了意向之后就开始疲了。动力大大下降,所以差不多就在这和大家分享一些秋招的经验吧,虽然offer拿得不多,但是也可以从失败的教训中吸取一些有用的经验。那么就在这和大家分享一下我的小小心得。这里就不写具体问什么题了,在一些面经里面可以找到,主要是分享一些注意事项和对自己的总结吧。蚂蚁面经百度面经华为面经美团面经 b站面经 字节面经数据结构和算法无论是算法岗还是开发岗还是测试岗,万变不离其宗,重中之重自然就是数据结构和算法了,
2021-09-23 14:04:25 285
原创 推荐系统+因果推断(一)——KDD2021推荐系统中去除混淆缓解偏差放大
今天和大家分享一篇因果推断和推荐系统结合的文章。因果推断在推荐系统中主要应用于用户增长、定价算法以及纠偏等领域,这篇文章属于纠偏领域。主要用到了我们前面因果推断(二)和因果推断(四)中提到的混杂和后门调整等内容,有不熟悉的小伙伴可以翻看前面的文章,好啦,进入正题。背景推荐系统中通常用于学习的数据是不平衡的。由于我们是从用户的历史点击或者转化数据中进行学习,因此通常会面临这样一个问题:对于推荐过的商品我们会认为用户是很感兴趣的,所以很可能会继续给他推荐,而对于没有推荐过的商品,...
2021-09-21 19:47:12 4565 2
原创 因果推断(五)——反事实,后悔药?
反事实推断一个词概括就是“后悔”。例子:“还是以小夏开店为例,小夏请了A明星代言后,销售量虽然有提升,但是由于该明星的代言费很贵,导致最终还是亏本了。于是,小夏想要是当时没有请明星代言,会不会就不亏本了。”——推断没有发生过的事情,就是反事实推断,当前的事实是请了A明星,没有发生的事情是不代言。反事实的定义与计算反事实的计算可以通过干预实现,在外生变量U=u的情况下,假如B=b的话,C的值会是多少。这里对B进行干预do(B=b),则以下面这个因果图为例...
2021-09-20 20:43:06 3021 1
原创 华为消费者一面二面三面面经
一面二面之前的帖子聊过了,大家可以跳转三面是主管面,没有基础知识或者那些比较八股的内容,主要是自我介绍 聊聊项目,没深挖 在项目中扮演的角色 在实验室中,自己的状态,技术大牛?内向? 求学或者科研过程中遇到困难的事 印象深刻的事 对华为的了解,你想在华为有什么样的发展,应该是没回答出他想要的 继续问对华为的文化了解吗 期望base地 期望总包(说是随便聊聊,不会影响过不过) 反问整个过程相对轻松,不是那种压力面,虽然不知道最后过不过,祝愿大家都能收获满意的offer更多..
2021-09-18 10:11:28 825
原创 因果推断(四)——后门调整、前门调整、逆概率加权
在因果推断(三)中,我们介绍了干预的相关概念,在本文中,我们对一些方法进行介绍,这些方法可用于利用干预分析变量之间的因果关系。在因果推断(三)中,我们得出了调整公式,如上式。假设PA为A节点的所有父节点的集合,则上式可以修改为其中b为PA所有可能的取值后门调整回顾后门准则的定义:对于X到Y的路径中,如果Z集合中的节点不是X的后代节点,并且以Z为条件会阻断所有X和Y之间的后门路径,则Z满足(X,Y)的后门准则。如果B满足后门准则,则后门调整公式就是我们在...
2021-09-15 13:53:20 10331 5
原创 华为消费者算法岗一面二面
不吹不黑,u1s1,华为是我面的几家公司里面一面二面相对简单的,没怎么问基础知识,对项目的探讨会更多一点,所以其实也看个人,如果有的小伙伴对项目不是很熟,对基础知识比较熟可能会觉得有点难一面 逐个介绍简历里的项目,然后自己挑一个进行详细介绍,然后面试官会对项目中的一些内容进行发问,这个就取决于每个人的项目内容了第一题算法题,替换字符串中的空格为其他特定的字符串,要求空间复杂度尽量低。 写完后,问了我是否会溢出,即python中值太大是否会溢出第二题,假设有一个函数f是已知的,知道f(a)=5
2021-09-14 16:46:36 5121
原创 因果推断(三)——结构因果模型、干预、辛普森悖论
主要内容 结构因果模型 干预 辛普森悖论 调整公式 结构因果模型(Structural Causal Model, SCM)定义:结构因果模型被定义为一个有序三元组<U,V,f>,U为外生变量,即有模型外部因素决定,外生变量不能是其他变量的后代;V为内生变量,即由模型内部因素决定,内生变量至少是一个外生变量的后代;f为一组方程,通过f可以用外生变量推导出内生变量的值SCM包含图结构和变量,简单的例子如下:以因果推断(二)中的诺贝尔奖和巧克力的事
2021-09-10 13:42:38 6763 4
原创 因果推断(二)——混杂因子,D-分离,后门准则
上次已经和大家分享了因果推断中的贝叶斯相关知识,今天这部分和大家分享因果推断中的混杂因子,D-分离,后门准则的相关内容。先上例子以上一篇中的诺贝尔奖和巧克力的事件为例,下图是他们三者的因果图,从图中可以看出这是一个叉式结构,即A和C相关。但是他们的相关性是通过“经济,教育水平”关联的,他们之间是伪相关,而B就是混杂因子,是它造成了A和C之间的伪相关。从字面上也很好理解,是因为B的存在导致我们对A和C之间的因果关系产生了混乱。下图这种形式B也是confunder,即混杂因子。这种情况下,.
2021-09-08 12:11:59 9235 3
原创 因果推断学习笔记(一)
在日常生活中,我们常常会用到因果推断。比如“你淋雨了,赶紧去洗澡,不然容易着凉,感冒”这里我们认为淋雨是感冒的因,通过原因,来推断可能得结果“我拉肚子了,可能是昨天海鲜吃多了”这里我们认为海鲜吃多了是拉肚子的因,并且通过拉肚子反推可能得原因因果推断遍布生活的方方面面,而在大数据时代,因果推断也在机器学习领域逐渐火了起来。要学习因果推断,我们必须先学习一些预备知识。因果性和相关性首先我们需要区分因果性和相关性。相关性:一个比较经典的例子,研究发现一个国家消耗巧克力越多,这个
2021-09-05 11:03:40 3056
原创 蚂蚁金服,从实习到转正,附面经笔经
未经允许,不得转载实习生活动集团的各种讲座,了解蚂蚁文化or技术讲座(ps: 自愿参加)大组内部也会有讲座,还是蛮有用的会有open day,可以理解为大家互相了解,玩一玩,有礼品组内会有团建,吃吃喝喝玩玩组内会有分享会,分享一些新知识,有特殊日子会一起庆祝实习生相对轻松,可以早走,有事就请假答辩完还送了大礼包!!笔经面经 笔试 leetcode 815.公交线路(hard) leetcode 1411 给N x 3...
2021-09-02 10:25:16 746
原创 leetcode刷题题目分享
https://blog.csdn.net/naocanmani/article/details/119919192接这篇分享,这次和大家分享一下我在刷题过程中遇到的一些值得二刷的题,或者是一些有趣,或者是一些易错的题,希望对大家有参考价值。https://leetcode-cn.com/problem-list/SiCeZdDu如果有用的话,请不要吝啬你的三连哦!未经同意,不得转载...
2021-08-27 10:44:38 128
原创 2021秋招算法岗部分面经总结——美团、字节、bilibili
未经同意,禁止转载美团到店一面凉经bagging,boosting对比,举例 auc,precision,recall,acc含义 过拟合怎么办 深度学习优势 深挖项目 正则表达式 推荐模型通常由哪几部分组成,item的id如何embedding,word2vec做法,从word2vec出发,该怎么做id的embedding 常用推荐算法模型有哪些 算法题,问的有问题,这边就不提了字节跳动音乐一面,二面(暂时到二面)一面 实习项目和论文,论文中的方法相对于传统方法有什么优势
2021-08-25 21:15:44 787 3
原创 推荐系统(二)——召回模型,协同过滤 Collaborative Filtering
召回阶段是在大量物品集合中进行初步筛选,找到一部分子集,该子集中的物品与用户具有相对较高的相似度。常用的召回模型有协同过滤,向量化召回,矩阵分解等协同过滤(Collaborative Filtering,CF) 协同过滤通常包括基于用户的协同过滤(User CF),基于物品的协同过滤(Item CF)User CF User CF 是给相似用户推荐相似商品。当为A推荐商品时,主要分为两步:第一步,寻找与A相似的用户;第二步,从这些相似的用户找查找这些用户所喜欢的,但是A不...
2021-04-26 15:05:40 425
原创 推荐系统学习(一)
学习笔记 推荐系统已经深入我们的日常生活,当我们逛淘宝,京东的时候,系统一方面记录着我们的行为,一方面通过历史行为对商品进行推荐。这是机器学习的具体应用,使用机器学习对用户的特征,商品的特征,历史行为以及上下文信息进行建模,从而对用户的兴趣以及可能点击的商品进行推荐。这在推荐系统,计算广告中都普遍存在,正式机器学习,深度学习以及现代经济的快速发展,使得推荐系统成为许多公司,尤其是IT公司不可缺少的一部分。 OK,那这篇文章就是先对推荐系统进行一个简单的介绍,使得大家对推荐...
2021-04-26 10:39:52 198
转载 随机森林原理
阅读目录 1 什么是随机森林?2 随机森林的特点3 随机森林的相关基础知识4 随机森林的生成5 袋外错误率(oob error)6 随机森林工作原理解释的一个简单例子7 随机森林的Python实现8 参考内容回到顶部 1 什么是随机森林? 作为新兴起的、高度灵活的一种机器学习算法,随机森林(Random Forest,简称RF)拥有广泛的应用前景,从市场营销到医疗保健保险,既可以用来做市场营销模拟的建模...
2020-10-03 19:27:44 2854
原创 交叉熵与极大似然估计的关系
看了博客记录一下笔记图片来自https://blog.csdn.net/u012505617/article/details/108753869
2020-10-03 18:54:30 283
原创 逻辑回归是做分类问题的,为什么称为“回归”
对于逻辑回归,我们采用sigmoid函数进行分类可以发现,虽然这个函数看上去有很多部分组成,但是我们需要做的是取拟合去拟合一些参数(w),使得p和x满足这样的线性关系。
2020-10-03 15:34:45 1065
转载 交叉熵,相对熵,为什么损失函数用交叉熵
前言在处理分类问题的神经网络模型中,很多都使用交叉熵 (cross entropy) 做损失函数。这篇文章详细地介绍了交叉熵的由来、为什么使用交叉熵,以及它解决了什么问题,最后介绍了交叉熵损失函数的应用场景。要讲交叉熵就要从最基本的信息熵说起1.信息熵信息熵是消除不确定性所需信息量的度量。(多看几遍这句话)信息熵就是信息的不确定程度,信息熵越小,信息越确定。 (因为事件都有个概率分布,这里我们只考虑离散分布)举个列子,比如说:今年中国取消高考了,这句话我们很不确定(甚至心里还觉得这TM是扯淡),那我们就要去
2020-10-03 14:43:54 1408
原创 为什么使用one-hot 独热编码
使用one-hot编码,可以使得离散特征变量扩展到欧式空间,有助于特征空间中的距离计算,而在机器学习,深度学习中,在欧式空间中的距离、相似度的计算是非常重要、常见的。但如果特征是离散的,并且不用one-hot编码就可以很合理的计算出距离,那么就没必要进行one-hot编码。...
2020-10-03 14:00:18 698
原创 K-Means算法及其变种,优缺点分析笔记
K-Mneans算法是常见,常用,常考的算法,因此这里做个笔记,多多复习。k-means算法的主要流程1.根据需求,初始化k个中心点2.为每个样本点计算他们和k个中心点的距离,找到距离最近的中心点,即该样本就属于这个中心点所代表的的类3.做完2后,就已经对样本做了一次分类了,接着计算每个类别中的样本点的均值,用这些均值代替原来的k个样本点。4.重复2,3知道满足一些条件(迭代次数,误差大小等)。距离有多种计算方法:距离度量的不同方法可以参考我的另一篇博客https://blog.cs
2020-10-03 13:17:46 2553
原创 相似度度量的不同方法
在机器学习,深度学习中,我们会用到许多方法去度量样本间的相似度。在参考了一些文章后,在这里总结记录一下。欧氏距离欧氏距离是最常用的方法。计算两点间的绝对距离。假设二维向量曼哈顿距离图像来自于https://my.oschina.net/u/4261771/blog/3399898曼哈顿距离计算方式:因此上面的四种颜色的曼哈顿距离是一样的。马氏距离马氏距离考虑了各个维度尺度不一致,且各个特征之间相关的情况。Σ是协方差矩阵,当中间的协方矩阵为单位阵的时候,马氏距离就
2020-10-03 10:14:33 2119
转载 常用损失函数,代价函数
引用及参考:[1]https://blog.csdn.net/reallocing1/article/details/56292877[2]https://blog.csdn.net/m_buddy/article/details/80224409[3]https://blog.csdn.net/chaipp0607/article/details/7603735...
2020-04-21 15:41:52 201
转载 maxout学习
一、相关理论 本篇博文主要讲解2013年,ICML上的一篇文献:《Maxout Networks》,这个算法我目前也很少用到,个人感觉最主要的原因应该是这...
2020-04-21 15:17:24 248
原创 dropout,batch norm的使用顺序,训练和测试时的差异
batch norm和dropout都可以起到正则化的作用,防止过拟合。dropout:dropout通俗理解就是,在神经网络训练的时候,有时因为神经元过多,模型参数过多等原因而导致过拟合,dropout以概率p让一部分神经元失活,从而达到降低过拟合的效果。如下图所示,使用dropout后,一部分神经元不参与训练。在前向传播时,假设有这一层n个神经元,则我们可以假设每个神经元的概...
2020-04-21 12:16:29 4468
转载 机器学习——梯度消失,梯度爆炸
原因梯度消失:1.深层网络,2.不合适的激活函数梯度爆炸:1.深层网络,2.权值初始化太大对于神经网络的更新,我们是采用反向传播(BP),用梯度下降策略对神经网络进行参数更新。根据链式法则求导,越靠近输入层的隐藏层导数乘的次数就越多。因此,如果导数大于1,那么层数越多,梯度以指数级增长,容易发生梯度爆炸;如果导数小于1,那么层数越多,梯度以指数级减小,容易发生梯度消失。不合适的...
2020-04-21 10:05:42 509
转载 机器学习优化方法——ADAM,RMSPROP,SGD,ADAGRAD等
只是转载了一部分基础的:https://blog.csdn.net/yinyu19950811/article/details/90476956
2020-04-19 21:21:52 219
原创 机器学习基础——L1,L2正则化
正则化项可以看做损失函数中添加惩罚项,惩罚项的目的在于对其中的一些参数进行限制。L1正则化的模型又称为Lasso回归,使用L2正则项的模型又称为岭回归(Ridge回归)。L1: L1正则化就是对loss加上w的绝对值的和,也就是1范数L2: L2正则化就是对loss加上w的平方和,也就是2范数L1,L2都能用于防止过拟合,但是L2更常用。L1可以产生稀疏的权值矩阵,即产生一...
2020-04-18 21:21:02 208
原创 机器学习——支持向量机SVM学习总结
对于上图中的红叉和蓝圈,如果我们进行二分类,找到他的分类边界,那么有许多中可能(绿色,粉色,黑色)。但是,绿色和粉色的分类超平面,对于未知样本的预测效果会比黑色的差。支持向量机,就是去找到这样一个分类超平面,使得样本点到这个平面的距离最大。数学模型判别模型f(x)=wTx+bf(x)=w^Tx+bf(x)=wTx+b,把b当成w的一部分则f(x)=wTxf(x)=w^Txf(x)=wTx,对...
2020-04-18 11:52:29 747
原创 机器学习——不平衡分类指标
准确率(acc),代表分对的样本占所有样本的比例,在不平衡分类中不可信,比如当样本比例为99:1的时候,只需要让多数类都分对,准确率就可以达到99%,但实际上少数类却被全部分错了。查准率,又叫精确率,用查准率比较好理解,字面理解就是查的准不准,就是希望我判断为真的样本,有哪些是确实的是正的样本召回率(Recall, TNR, sensitivity),就是实际为正的样本中有多少...
2020-04-13 16:14:28 3540
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人