算法
文章平均质量分 76
DHD_only
在一家业界认为最累的公司上班
展开
-
Factoriztion Machine
FM是推荐系统中使用的一种推荐模型,在很多领域有很好的推荐效果 . kdd2012, wsdm2013有几篇论文都取得了比较好的效果。 数据格式: 与libsvm一样 接受的数据格式和libSVM是一样的,每行一个数值(分类结果or打分结果等),对应一组特征,每个非零特征都需要给出数值,零特征忽略主要思想: 传统的线性分类器: y=...2013-03-07 06:35:31 · 169 阅读 · 0 评论 -
数量积,点积
在数学中,数量积(也称为标量积、点积、点乘)是接受在实数R上的两个矢量并返回一个实数值标量的二元运算。它是欧几里得空间的标准内积。 计算方法两个矢量a = [a1, a2,…, an]和b = [b1, b2,…, bn]的点积定义为:这里的Σ指示总和符号。例如,两个三维矢量[1, 3, −5]和[4, −2, −1]的点积是。使用矩阵乘法并把(纵列)矢量当作n×...原创 2012-03-07 11:54:09 · 385 阅读 · 0 评论 -
TF-IDF
TF-IDF(term frequency–inverse document frequency)是一种用于资讯检索与文本挖掘的常用加权技术。TF-IDF是一种统计方法,用以评估一字词对于一个文件集或一个语料库中的其中一份文件的重要程度。字词的重要性随着它在文件中出现的次数成正比增加,但同时会随着它在语料库中出现的频率成反比下降。TF-IDF加权的各种形式常被搜索引擎应用,作为文件与用户查询之间相...原创 2012-03-07 15:24:08 · 105 阅读 · 0 评论 -
模型选择(转载)
http://www.cnblogs.com/jerrylead/archive/2011/03/27/1996799.html1 问题 模型选择问题:对于一个学习问题,可以有多种模型选择。比如要拟合一组样本点,可以使用线性回归,也可以用多项式回归。那么使用哪种模型好呢(能够在偏差和方差之间达到平衡最优)? 还有一类参数选择问题:如果我们想使用带权值的回归模型,那么怎...原创 2013-04-10 05:11:25 · 176 阅读 · 0 评论 -
NMF(非负矩阵分解)的SGD(随机梯度下降)实现
NMF把一个矩阵分解为两个矩阵的乘积,可以用来解决很多问题,例如:用户聚类、item聚类、预测(补全)用户对item的评分、个性化推荐等问题。NMF的过程可以转化为最小化损失函数(即误差函数)的过程,其实整个问题也就是一个最优化的问题。详细实现过程如下:(其中,输入矩阵很多时候会比较稀疏,即很多元素都是缺失项,故数据存储采用的是libsvm的格式,这个类在此忽略) [ja...原创 2013-05-22 06:36:44 · 373 阅读 · 0 评论