- 博客(5)
- 资源 (1)
- 收藏
- 关注
原创 CTR中的特征哈希
在CTR预估中,一种做法是采用人工来做feature engineering,将一些非线性的feature转换为线性的feature,然后喂给LR之类的线性model来做在线学习,在这个过程中,对于一些categorical feature,比如user_id,advertisement_id,直接做one-hot encoding(一般还会对feature做笛卡尔积)会导致维度爆炸,hashin...
2019-01-20 20:42:09 2208 4
转载 梯度下降之MiniBatch与并行化方法
问题的引入:考虑一个典型的有监督机器学习问题,给定m个训练样本S={x(i),y(i)},通过经验风险最小化来得到一组权值w,则现在对于整个训练集待优化目标函数为:其中为单个训练样本(x(i),y(i))的损失函数,单个样本的损失表示如下:引入L2正则,即在损失函数中引入,那么最终的损失为:注意单个样本引入损失为(并不用除以m):正则化的解释这里的正则化项可...
2019-01-20 20:13:06 1796 1
转载 AUC计算方法总结
在机器学习的分类问题中,尤其是二分类问题中,常常需要有评判标准,那么在这些评判标准中,最常用的就是准确率、召回率、ROC和AUC。其中,在实际使用中,我们往往使用AUC作为评判标准,那么如何计算AUC就是非常重要的。在常见的方法中,最常用的就是通过计算ROC,然后计算ROC下与X轴围成的面积作为AUC的值,但是这种方法非常简单,不会用于实际计算中。所以我们需要另外寻找方法来计算。那么,这就出现...
2019-01-20 20:04:47 3697
转载 FM算法研究及python代码实现
1. 什么是FM?FM即Factor Machine,因子分解机。2. 为什么需要FM?1、特征组合是许多机器学习建模过程中遇到的问题,如果对特征直接建模,很有可能会忽略掉特征与特征之间的关联信息,因此,可以通过构建新的交叉特征这一特征组合方式提高模型的效果。2、高维的稀疏矩阵是实际工程中常见的问题,并直接会导致计算量过大,特征权值更新缓慢。试想一个10000*100的表,每一列都...
2019-01-16 11:45:15 1421
转载 【机器学习】LR的分布式(并行化)实现——理论篇
逻辑回归(Logistic Regression,简称LR)是机器学习中十分常用的一种分类算法,在互联网领域得到了广泛的应用,无论是在广告系统中进行CTR预估,推荐系统中的预估转换率,反垃圾系统中的识别垃圾内容……都可以看到它的身影。LR以其简单的原理和应用的普适性受到了广大应用者的青睐。实际情况中,由于受到单机处理能力和效率的限制,在利用大规模样本数据进行训练的时候往往需要将求解LR问题的过程进...
2019-01-06 09:35:23 1884
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人