machine learning
文章平均质量分 76
march_on
这个作者很懒,什么都没留下…
展开
-
XGBoost: A Scalable Tree Boosting System
系统设计那里不是很明白。ABSTRACT提出xgboost,一个端到端的梯度提升算法的实现。具有如下特点:1.提出稀疏感知算法来处理稀疏数据2.加权分位点概要算法进行近似3.在缓存命中模式、数据压缩和分片上的创新目标函数第一部分是损失函数,用来拟合label,第二部分是正则项,用来防止过拟合。去掉正则项之后,目标函数就是传统的GBDT。GBDT 算法通过加性学习,每轮迭代学习一棵CART树来优化损失函数,并将新的树加入到模型中。对该损失函数进行泰勒二阶展开,如下其中,一阶梯度和二原创 2021-05-16 18:35:06 · 531 阅读 · 0 评论 -
parameter estimation for text analysis
p(θ|X)=p(X|θ)p(θ)p(X)p(\theta|X)=\frac{p(X|\theta)p(\theta)}{p(X)} 其中p(θ)p(\theta)称为先验,p(X|θ)p(X|\theta)称为似然,p(θ|X)p(\theta|X)称为后验,p(X)p(X)称为evidence ,又叫边际似然(marginal likelihood)。最大似然估计(MLE)是最大化似原创 2016-01-05 16:11:13 · 2104 阅读 · 1 评论 -
LR推导
二分类逻辑回归:假设样本x,预测值y∈{1,0}y\in\{1,0\}。p(Y=1|x)=exp(wx+b)1+exp(wx+b)=π(x)p(Y=1|x)=\frac{exp(wx+b)}{1+exp(wx+b)} = \pi(x) p(Y=0|x)=11+exp(wx+b)=1−π(x)p(Y=0|x)=\frac{1}{1+exp(wx+b)}=1-\pi(x)损失函数: L=∏i原创 2015-10-14 22:39:25 · 6644 阅读 · 0 评论 -
Deep Interest Network for Click-Through Rate Prediction
ABSTRACT现有CTR常用的DNN架构中将用户特征表示为一个固定长度的embedding向量。固定长度会导致网络很难从用户的历史行为中学习到用户的多种兴趣。文中提出了DIN网络来解决这个问题,该网络设计了一个局部激活单元来自适应地从和某个广告相关的历史行为中学习用户兴趣。这个表示向量会因广告而异,极大地提高了模型的表达能力。此外,作者开发了两种技术:mini-batch aware regu...原创 2019-01-17 10:41:29 · 3254 阅读 · 1 评论 -
Wide & Deep Learning for Recommender Systems
ABSTRACT通过特征的向量积(cross-product)对特征交叉的记忆具有可解释性,而泛化又需要更多的特征工程。而DNN通过对稀疏特征学习低维稠密的embedding表示对未出现的特征组合具有良好的泛化性能。但是,当用户物品关系比较稀疏,维度又比较高时,DNN容易过度泛化,推荐一些不相干的物品。文中提出Wide&Deep 学习,同时训练wide 部分和dnn,将记忆性和泛化性结合...原创 2019-01-18 09:41:08 · 1087 阅读 · 0 评论 -
Deep Neural Networks for YouTube Recommendations
Deep Neural Networks for YouTube Recommendations文章主要介绍了youtube的视频推荐系统。根据检索的两个阶段,文章分成两大块,第一步是候选集生成(candidate generation),第二步是基于深度学习的排序模型。同时,文中也介绍了在设计、迭代和维护如此大型的推荐系统时的一些经验。INTRODUCTIONyoutube视频推荐主要有...原创 2019-01-13 23:16:55 · 434 阅读 · 0 评论 -
Entire Space Multi-Task Model: An E ective Approach for Estimating Post-Click Conversion Rate
ABSTRACT传统的CVR预估有一些问题,比如训练是在被点击的曝光上进行,而预估是在所有曝光上。这就是sample selection bias 问题。另外,还有一个数据稀疏问题,使得训练比较困难。文中作者从一个全新的角度对CVR建模,利用用户行为的顺序模式,曝光->点击->转化,进而提出了**Entire Space Multi-task Model (ESMM) ** 模型,并...原创 2019-01-19 18:00:38 · 806 阅读 · 0 评论 -
Real-time Personalization using Embeddings for Search Ranking at Airbnb
ABSTRACT作者在本文讲述了airbnb如何对用户和房源进行embedding,并应用在搜索排序和相似房源推荐中进行实时个性化。在airbnb中搜索排序和相似房源推荐贡献了99%的转化。文中的embedding 模型专门针对airbnb的业务进行定制,并能捕捉用户的短期和长期兴趣。INTRODUCTION在airbnb,为房东和房客优化搜索结果,意味着给定带有地点和入住日期的查询,平台需...原创 2020-04-20 01:06:47 · 1211 阅读 · 0 评论 -
Practical Lessons from Predicting Clicks on Ads at Facebook
ABSTRACT文中提出的模型融合了决策树和 逻辑回归 ,比单个方法效果好3%。之后探索了多个基础参数对预测效果的影响。最重要的事情是使用正确的特征:即那些捕捉到用户或者广告历史信息的特征比其他类型的特征更好。一旦有了正确的特征和模型(决策树和逻辑回归),其他因素发挥的作用很小(虽然小但是规模已一大还是会比较重要),为数据更新、学习率设置和数据采样选择最优的方法,也能稍微提升模型效果,但是远不...原创 2019-02-24 17:15:05 · 3204 阅读 · 1 评论 -
softmax regression 推导
P(y(i)=k|x(i);θ)=exp(θ(k)⊤x(i))∑Kj=1exp(θ(j)⊤x(i))P(y^{(i)} = k | x^{(i)} ; \theta) = \frac{\exp(\theta^{(k)\top} x^{(i)})}{\sum_{j=1}^K \exp(\theta^{(j)\top} x^{(i)}) }似然函数 L=∏i=1M∏k=1KP(y(i)=k|原创 2016-01-05 11:20:15 · 925 阅读 · 0 评论 -
最大熵(一)
熵的定义 H(P)=−∑xP(x)logP(x)H(P)=-\sum_x P(x)logP(x) 熵的范围 0≤H(p)≤log|X||X|是X的取值个数。0\le H(p)\le log|X|\\|X|是X的取值个数。熵大于0很显然。下面证明后半部分0≤KL(p|u)=∑xp(x)logp(x)u(x)=∑xp(x)logp(x)−∑xp(x)logu(x)=−H(x)+log|X原创 2015-11-21 17:44:22 · 2959 阅读 · 0 评论 -
Adaboost
Adaboost是集成学习中最常用的算法之一。该算法是损失函数为指数损失的前向分步加法模型。下面是这一结论的证明过程。10.3 Forward Stagewise Additive ModelingInitialize f0(x)f_0(x) = 02.For m =1 to M a Compute (βm,γm)=argminβ,γ∑i−1NL(yi,fm−1(xi)+βb(xi;γ原创 2015-10-14 10:29:37 · 1287 阅读 · 0 评论 -
plsa matlab实现
google上可以搜到很多实现,貌似用的比较多的是下面这几个1.http://www.robots.ox.ac.uk/~vgg/software/2.http://lear.inrialpes.fr/~verbeek/software.php3.http://people.kyb.tuebingen.mpg.de/pgehler/code/index.html4.http://sh原创 2013-05-12 16:49:57 · 4053 阅读 · 0 评论 -
朴素贝叶斯
朴素贝叶斯因为假设特征之间的独立性而得名“朴素”,经常用在文本分类之中。其实,常见的朴素贝叶斯有三个版本:应用于文本分类的多项式模型朴素贝叶斯和伯努利模型朴素贝叶斯和用于连续变量的高斯分布的朴素贝叶斯。首先,对于文本分类,我们假设文档长度为k,词汇表大小为M(即数据集中有M个不同的单词). 伯努利分布是指只有两个可能结果的单次实验,最典型的例子就是掷硬币。 那么,将伯努利模型应用于文本上,就是进原创 2015-09-27 17:08:20 · 2697 阅读 · 0 评论 -
EM算法
下面是《统计学习方法》EM算法的笔记。 EM算法是一种针对含有隐变量的模型的参数估计方法,具体来说是极大似然估计和最大后验概率估计。该算法分为两步,第一步求期望,第二步对期望进行最大化。首先,我们定义Y是观测变量,Z是隐变量。其中Y又称为不完全数据,Y、Z在一起称为完全数据。第一步求的是下面这个函数的期望:Q(θ,θi)=EZ[logP(Y,Z|θ)|Y,θi]=∑zlogP(Y,Z|θ)P(Z|原创 2015-11-07 23:21:31 · 1028 阅读 · 0 评论 -
smote算法
平时很多分类问题都会面对样本不均衡的问题,很多算法在这种情况下分类效果都不够理想。针对不均衡问题,一般有采样和代价敏感学习两种策略,采样的话又分为over-sampling和under-sampling。其中,smote算法算是over-sampling中比较常用的一种。smote算法的思想是合成新的少数类样本,合成的策略是对每个少数类样本a,从它的最近邻中随机选一个样本b,然后在a、b之间的连线上原创 2015-09-22 10:04:08 · 52644 阅读 · 13 评论 -
高斯混合模型
所谓高斯混合模型就是一组高斯分布的和,可以表示如下:P(y|θ)=∑k=1Kαkϕ(y|θk)P(y|\theta)=\sum_{k=1}^{K}\alpha_k\phi(y|\theta_k)αk\alpha_k是第k个高斯分布的系数,大于0且∑kk=1αk=1\sum_{k=1}^k\alpha_k=1。ϕ(y|αk)\phi(y|\alpha_k)是第k个高斯分布:ϕ(y|αk)=1(√2原创 2015-11-09 00:02:02 · 930 阅读 · 0 评论 -
easy ensemble 算法和balance cascade算法
看了一下easy ensemble 算法的matlab代码,发现之前的理解有问题从上面的伪代码可以看出,easy ensemble每次从多数类中抽样出和少数类数目差不多的样本,然后和少数类样本组合作为训练集。在这个训练集上学习一个adaboost分类器。 最后预测的时候,是使用之前学习到的所有adaboost中的弱分类器(就是每颗决策树)的预测结果向量(每个树给的结果组成一个向量)和对应的权重向量原创 2015-09-22 17:03:32 · 22845 阅读 · 1 评论 -
对AUC的理解
auc是常见的对二类分类器的评价指标,其大小等于ROC曲线下的面积。ROC曲线的横坐标为false postive rate(fpr),纵坐标为true positive rate(tpr), false postive rate的计算法公式: fpr=fpfp+tnfpr=\frac{fp}{fp+tn} 其中,fp表示false positive,即负例被分成正例的个数,tn表示tru原创 2015-09-23 23:18:42 · 2160 阅读 · 0 评论 -
决策树
ID3最基础的决策树就是ID3了,它使用信息增益选择最优的分裂特征,一旦选出最优特征后,该特征的每个取值都会对应一个分支,所以ID3是一颗多叉树。ID3的优点是简单,缺点是无法处理连续型特征。在实现ID3的时候发现ID3 有一个问题,就是某些样本无法对其进行分类。比如下面这种情形:首先假设特征A,B,A的取值为front,mid, back,B的取值为low,high。假设我们先用特征B划分,所有原创 2015-10-14 09:55:35 · 925 阅读 · 0 评论 -
plsa 公式推导
plsa中完全数据(complete data)的似然函数:其中,表示文档i中的第j个单词的主题是否为k,如果为k则为1,否则为0相应地,对数似然函数如下然后Q function就是又有两个约束条件:下面利用拉格朗日乘法求参数拉格朗日函数:然后分别对参数求导:求解过程:以(1)为例,将(1)变换成如下形原创 2013-05-13 16:41:09 · 2522 阅读 · 2 评论