- 博客(4)
- 资源 (21)
- 收藏
- 关注
原创 【每周一文】Field-aware Factorization Machine(2014)
概述 FFM 近年来在各类比赛取得不俗的成绩,该文介绍了FFM的算法思路和求解过程。FFM模型线性模型由于其简单好优化在工业界广泛使用,特别是LR、SVM等表达能力比较强的线性模型。这些模型一个共同的问题是需要人工进行特征组合进行模型优化,沿着这个思路出现了几个模型。线性模型基础模型,表示为: Φ(w,x)=w0+∑i=1nwixi\Phi(w,x)=w_0+\sum_
2016-04-12 22:58:36 3788 1
原创 【每周一文】Ad Click Prediction: a View from the Trenches(2013)
概述该文是GoogleFTRL在点击率模型上的应用,从技术实现的角度介绍了在线学习算法FTRL的工程实现,并且给出一些内存优化、特征选择等工程细节。从此FTRL算法才大规模推广使用。 该笔记主要介绍一下几类在线学习算法的思路以及FTRL实现细节以及工程上技巧。问题点击率预估问题(CTR)是计算广告中非常重要的模块,预估一个用户对广告的点击概率,从而提升广告效果。 LR模型时CTR问
2016-04-12 22:57:58 7432
原创 【每周一文】Learning Classifiers from Only Positive and Unlabeled Data(2008)
概述本文也是用于求解PULearning问题,并且提出在样本满足一定分布情况下,根据正样本和未标记样本作为负样本训练出来的分类模型,预测出来的结果和该样本属于正样本的概率存在一个固定常数系数。 根据该假设提出两种模型训练思路,能够得到最好的效果。问题求解对于给定的样本数据引入第三个随机变量S表示该样本是否被标记过,则p(x,y,s)满足一定的概率分布。 变量含义x为样本特征数据
2016-04-12 22:56:35 3746 3
原创 【每周一文】Building Text Classifiers Using Positive and Unlabeled Examples(2003)
概述PULearning是一类机器学习算法,主要解决的问题是给定训练样本只有正样本和一批未标记的样本,学习一个分类器进行分类。这是一类比较难解决的问题,由于没有负样本其评估的方法不好确定;但是有很多的应用场景,例如蛋白质序列查找、噪声发现等。 常用的解决思路主要分为两步: 1. 识别出一批可靠的负样本集合。 2. 根据正负样本训练多个分类器从中选择一个最优的作为最终的分类器。 该文介绍
2016-04-12 22:55:55 2041
Eclipse3.5,升级添加BPEL Designer插件l时需要的两个包
2010-06-29
BPEL学习实例,Apache-ODE,Eclipse-BPEL
2010-06-29
rabin-hash-function(rabin的随机多项式摘要算法)
2010-06-18
httpclient需要的jar包,合订版(httclient.jar,commons-codec,commons-logging)
2010-05-11
Heritrix,Mohr-et-al-2004.pdf,其作者谈其优劣
2010-03-31
HtmlAdaptorServer所需要的JAR包(com.sun.jdmk.comm.HtmlAdaptorServer)
2010-03-23
OA系统的毕业设计的毕业论文
2009-02-22
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人