自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

玉心sober

step by step...then...

  • 博客(10)
  • 收藏
  • 关注

原创 CTR预估中GBDT与LR融合方案

1、 背景CTR预估(Click-Through Rate Prediction)是互联网计算广告中的关键环节,预估准确性直接影响公司广告收入。CTR预估中用的最多的模型是LR(Logistic Regression)[1],LR是广义线性模型,与传统线性模型相比,LR使用了Logit变换将函数值映射到0~1区间[2],映射后的函数值就是CTR的预估值。LR这种线性模型很容易并行化,处理上亿条

2015-08-27 19:05:56 101447 23

原创 对数线性模型之一(逻辑回归), 广义线性模型学习总结

经典线性模型自变量的线性预测就是因变量的估计值。 广义线性模型:自变量的线性预测的函数是因变量的估计值。常见的广义线性模型有:probit模型、poisson模型、对数线性模型等等。对数线性模型里有:logistic regression、Maxinum entropy。本篇是对逻辑回归理论和应用的学习总结、以及广义线性模型导出逻辑回归的过程,下一篇将对最大熵模型的学习总结。

2013-08-17 22:06:30 47795 16

原创 c++ 学习总结

1、出现segmentation default的原因:这个内存区要么是不存在的,要么是受到系统保护的。例如:char *p=null,之后直接使用p而并没有进行malloc,就会出现这种错误

2013-07-30 10:12:53 2398

原创 linux、Hadoop相关的常用东西总结

总结一下最近的工作,如下,且会不断更新:1、下载软件SecureCRT或者putty(or pietty),可用来在windows远程登录(ssh1、ssh2)到linux服务器。SecureCRT和pietty各有优缺点,体会了下,总结以下几点:1)pietty安装使用直接方便,不怎么需要配置,直接拿来用即可,且默认设置挺漂亮。而SecureCRT安装后根据使用习惯需要设置字

2013-07-23 21:40:34 2765

原创 大规模数据相似度计算时,解决数据倾斜的问题的思路之一(分块思想)

现有user、item矩阵,如何计算两两用户的相似度呢?最直接的方法就是夹角余弦,计算用户向量之间的cos值,来度量相似度。因为实际问题中,矩阵通常是很稀疏的,所以真正实现cos计算相似度计算的时候,为了减少计算量,采用的的是倒排索引的数据结构。即:虽然采用的倒排的结构,但是用户量和item量很大,且有些item对应的用户量很大的时候,就会出现严重的数据倾斜问题。以MapReduce实

2013-07-08 17:33:28 12002 3

原创 MPI学习笔记(1)

今天开始学习写MPI,基本过程:1)配置mpi环境2)拿一小段MPI代码试验,来自:http://blog.csdn.net/zhuliting/article/details/5868425#include #include #include "mpi.h"int main(int argc,char *argv[]){ int i,j,k,n,myid,numpro

2013-07-01 16:09:10 2775

原创 BSP编程模型(以NMF为例,试验基于消息传递的模型BSP过程)

对于需要迭代计算的算法,MapReduce显然不可用,迭代n次的IO量太大,而基于消息的传递模型,BSP和MPI的优势就出来了。BSP的编程模型,试验过了,确实容易入门,只要将求解问题(例如,优化问题、图的最短路径问题等等)抽象成图模型(顶点Vertex、边Edge)后,再通过消息Message,来不断迭代求解即可。拿前面有篇文章,NMF的矩阵分解这个优化问题,来实验:1)NMF的矩阵分解基本

2013-07-01 15:33:35 4533 4

原创 正态分布具有很多好的性质,很多模型假设数据服从正态分布。但是如果数据不服从正态分布怎么办?

数据整体服从正态分布,那样本均值和方差则相互独立。正太分布具有很多好的性质,很多模型假设数据服从正态分布。例如线性回归(linear regression),它假设误差服从正态分布,从而每个样本点出现的概率就可以表示成正态分布的形式,将多个样本点连乘再取对数,就是所有训练集样本出现的条件概率,最大化这个条件概率就是LR要最终求解的问题。这里这个条件概率的最终表达式的形式就是我们熟悉的误差平方和。

2013-05-26 11:30:29 32514 5

原创 随机梯度下降(Stochastic gradient descent)和 批量梯度下降(Batch gradient descent )的公式对比、实现对比

梯度下降(GD)是最小化风险函数、损失函数的一种常用方法,随机梯度下降和批量梯度下降是两种迭代求解思路,下面从公式和实现的角度对两者进行分析,如有哪个方面写的不对,希望网友纠正。下面的h(x)是要拟合的函数,J(theta)损失函数,theta是参数,要迭代求解的值,theta求解出来了那最终要拟合的函数h(theta)就出来了。其中m是训练集的记录条数,j是参数的个数。

2013-05-25 21:21:45 187498 42

原创 NMF(非负矩阵分解)的SGD(随机梯度下降)实现

NMF把一个矩阵分解为两个矩阵的乘积,可以用来解决很多问题,例如:用户聚类、item聚类、预测(补全)用户对item的评分、个性化推荐等问题。NMF的过程可以转化为最小化损失函数(即误差函数)的过程,其实整个问题也就是一个最优化的问题。详细实现过程如下:(其中,输入矩阵很多时候会比较稀疏,即很多元素都是缺失项,故数据存储采用的是libsvm的格式,这个类在此忽略)package NMF

2013-05-22 00:07:08 12794 18

空空如也

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人 TA的粉丝

提示
确定要删除当前文章?
取消 删除