玉心sober-CSDN博客

原创 CTR预估中GBDT与LR融合方案

1、背景CTR预估（Click-Through Rate Prediction）是互联网计算广告中的关键环节，预估准确性直接影响公司广告收入。CTR预估中用的最多的模型是LR（Logistic Regression）[1]，LR是广义线性模型，与传统线性模型相比，LR使用了Logit变换将函数值映射到0~1区间[2]，映射后的函数值就是CTR的预估值。LR这种线性模型很容易并行化，处理上亿条

2015-08-27 19:05:56 110155 3

原创对数线性模型之一(逻辑回归), 广义线性模型学习总结

经典线性模型自变量的线性预测就是因变量的估计值。广义线性模型：自变量的线性预测的函数是因变量的估计值。常见的广义线性模型有：probit模型、poisson模型、对数线性模型等等。对数线性模型里有：logistic regression、Maxinum entropy。本篇是对逻辑回归理论和应用的学习总结、以及广义线性模型导出逻辑回归的过程，下一篇将对最大熵模型的学习总结。

2013-08-17 22:06:30 53965 3

原创 c++ 学习总结

1、出现segmentation default的原因：这个内存区要么是不存在的，要么是受到系统保护的。例如：char *p=null,之后直接使用p而并没有进行malloc，就会出现这种错误

2013-07-30 10:12:53 2633

原创 linux、Hadoop相关的常用东西总结

总结一下最近的工作，如下，且会不断更新：1、下载软件SecureCRT或者putty（or pietty），可用来在windows远程登录（ssh1、ssh2）到linux服务器。SecureCRT和pietty各有优缺点，体会了下，总结以下几点：1）pietty安装使用直接方便，不怎么需要配置，直接拿来用即可，且默认设置挺漂亮。而SecureCRT安装后根据使用习惯需要设置字

2013-07-23 21:40:34 2931

原创大规模数据相似度计算时，解决数据倾斜的问题的思路之一（分块思想）

现有user、item矩阵，如何计算两两用户的相似度呢？最直接的方法就是夹角余弦，计算用户向量之间的cos值，来度量相似度。因为实际问题中，矩阵通常是很稀疏的，所以真正实现cos计算相似度计算的时候，为了减少计算量，采用的的是倒排索引的数据结构。即：虽然采用的倒排的结构，但是用户量和item量很大，且有些item对应的用户量很大的时候，就会出现严重的数据倾斜问题。以MapReduce实

2013-07-08 17:33:28 12828

原创 MPI学习笔记（1）

今天开始学习写MPI，基本过程：1）配置mpi环境2）拿一小段MPI代码试验，来自：http://blog.csdn.net/zhuliting/article/details/5868425#include #include #include "mpi.h"int main(int argc,char *argv[]){ int i,j,k,n,myid,numpro

2013-07-01 16:09:10 3035

原创 BSP编程模型（以NMF为例，试验基于消息传递的模型BSP过程）

对于需要迭代计算的算法，MapReduce显然不可用，迭代n次的IO量太大，而基于消息的传递模型，BSP和MPI的优势就出来了。BSP的编程模型，试验过了，确实容易入门，只要将求解问题（例如，优化问题、图的最短路径问题等等）抽象成图模型（顶点Vertex、边Edge）后，再通过消息Message，来不断迭代求解即可。拿前面有篇文章，NMF的矩阵分解这个优化问题，来实验：1）NMF的矩阵分解基本

2013-07-01 15:33:35 4852

原创正态分布具有很多好的性质，很多模型假设数据服从正态分布。但是如果数据不服从正态分布怎么办？

数据整体服从正态分布，那样本均值和方差则相互独立。正太分布具有很多好的性质，很多模型假设数据服从正态分布。例如线性回归(linear regression)，它假设误差服从正态分布，从而每个样本点出现的概率就可以表示成正态分布的形式，将多个样本点连乘再取对数，就是所有训练集样本出现的条件概率，最大化这个条件概率就是LR要最终求解的问题。这里这个条件概率的最终表达式的形式就是我们熟悉的误差平方和。

2013-05-26 11:30:29 38060

原创随机梯度下降（Stochastic gradient descent）和批量梯度下降（Batch gradient descent ）的公式对比、实现对比

梯度下降（GD）是最小化风险函数、损失函数的一种常用方法，随机梯度下降和批量梯度下降是两种迭代求解思路，下面从公式和实现的角度对两者进行分析，如有哪个方面写的不对，希望网友纠正。下面的h(x)是要拟合的函数，J(theta)损失函数，theta是参数，要迭代求解的值，theta求解出来了那最终要拟合的函数h(theta)就出来了。其中m是训练集的记录条数，j是参数的个数。

2013-05-25 21:21:45 199056 47

原创 NMF(非负矩阵分解)的SGD（随机梯度下降）实现

NMF把一个矩阵分解为两个矩阵的乘积，可以用来解决很多问题，例如：用户聚类、item聚类、预测（补全）用户对item的评分、个性化推荐等问题。NMF的过程可以转化为最小化损失函数（即误差函数）的过程，其实整个问题也就是一个最优化的问题。详细实现过程如下：（其中，输入矩阵很多时候会比较稀疏，即很多元素都是缺失项，故数据存储采用的是libsvm的格式，这个类在此忽略）package NMF

2013-05-22 00:07:08 13608 3