自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

渣渣

一个IT愤青的自我告白

  • 博客(5)
  • 资源 (1)
  • 收藏
  • 关注

原创 CTR中的特征哈希

在CTR预估中,一种做法是采用人工来做feature engineering,将一些非线性的feature转换为线性的feature,然后喂给LR之类的线性model来做在线学习,在这个过程中,对于一些categorical feature,比如user_id,advertisement_id,直接做one-hot encoding(一般还会对feature做笛卡尔积)会导致维度爆炸,hashin...

2019-01-20 20:42:09 2208 4

转载 梯度下降之MiniBatch与并行化方法

问题的引入:考虑一个典型的有监督机器学习问题,给定m个训练样本S={x(i),y(i)},通过经验风险最小化来得到一组权值w,则现在对于整个训练集待优化目标函数为:其中为单个训练样本(x(i),y(i))的损失函数,单个样本的损失表示如下:引入L2正则,即在损失函数中引入,那么最终的损失为:注意单个样本引入损失为(并不用除以m):正则化的解释这里的正则化项可...

2019-01-20 20:13:06 1796 1

转载 AUC计算方法总结

在机器学习的分类问题中,尤其是二分类问题中,常常需要有评判标准,那么在这些评判标准中,最常用的就是准确率、召回率、ROC和AUC。其中,在实际使用中,我们往往使用AUC作为评判标准,那么如何计算AUC就是非常重要的。在常见的方法中,最常用的就是通过计算ROC,然后计算ROC下与X轴围成的面积作为AUC的值,但是这种方法非常简单,不会用于实际计算中。所以我们需要另外寻找方法来计算。那么,这就出现...

2019-01-20 20:04:47 3697

转载 FM算法研究及python代码实现

1. 什么是FM?FM即Factor Machine,因子分解机。2. 为什么需要FM?1、特征组合是许多机器学习建模过程中遇到的问题,如果对特征直接建模,很有可能会忽略掉特征与特征之间的关联信息,因此,可以通过构建新的交叉特征这一特征组合方式提高模型的效果。2、高维的稀疏矩阵是实际工程中常见的问题,并直接会导致计算量过大,特征权值更新缓慢。试想一个10000*100的表,每一列都...

2019-01-16 11:45:15 1421

转载 【机器学习】LR的分布式(并行化)实现——理论篇

逻辑回归(Logistic Regression,简称LR)是机器学习中十分常用的一种分类算法,在互联网领域得到了广泛的应用,无论是在广告系统中进行CTR预估,推荐系统中的预估转换率,反垃圾系统中的识别垃圾内容……都可以看到它的身影。LR以其简单的原理和应用的普适性受到了广大应用者的青睐。实际情况中,由于受到单机处理能力和效率的限制,在利用大规模样本数据进行训练的时候往往需要将求解LR问题的过程进...

2019-01-06 09:35:23 1884

开发Struts应用的步骤及中文乱码处理.doc

这个是一个关于Struts1.x的中文乱码的处理文档,可以帮助我们有效地处理中文乱码问题。

2015-07-04

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除