数据挖掘
文章平均质量分 85
seagullyoyo
for the load your god is with you whereever you go
展开
-
局部加权回归
局部加权紧接着上面的线性回归中参数求解来继续讲吧。还是以上面的房屋价格的预测,它的中心思想是在对参数进行求解的过程中,每个样本对当前参数值的影响是有不一样的权重的。比如上节中我们的回归方程为(这个地方用矩阵的方法来表示Ɵ表示参数,i表示第i个样本,h为在Ɵ参数下的预测值): 我们的目标是让 最小,然后求出来Ɵ,再代入h中就可以得到回归方程了。转载 2014-04-23 15:35:44 · 533 阅读 · 0 评论 -
SVD在推荐系统中的应用
参考自:http://www.igvita.com/2007/01/15/svd-recommendation-system-in-ruby/其实说参考也不准确,准确地说应该是半翻译半学习笔记。仔细整理一遍,感觉还是收获很大的。线性代数相关知识:任意一个M*N的矩阵A(M行*N列,M>N),可以被写成三个矩阵的乘机:1.U:(M行M列的列正交矩阵转载 2014-09-16 19:51:12 · 548 阅读 · 0 评论 -
GBDT(MART) 迭代决策树入门教程 | 简介
在网上看到一篇对从代码层面理解gbdt比较好的文章,转载记录一下: GBDT(Gradient Boosting Decision Tree) 又叫 MART(Multiple Additive Regression Tree),是一种迭代的决策树算法,该算法由多棵决策树组成,所有树的结论累加起来做最终答案。它在被提出之初就和SVM一起被认为是泛化能力(g转载 2014-08-10 15:45:32 · 425 阅读 · 0 评论 -
ID3&C4.5的区别
ID3算法是决策树的一个经典的构造算法,在一段时期内曾是同类研究工作的比较对象,但通过近些年国内外学者的研究,ID3算法也暴露出一些问题,具体如下: (1)信息增益的计算依赖于特征数目较多的特征,而属性取值最多的属性并不一定最优。 (2)ID3是非递增算法。 (3)ID3是单变量决策树(在分枝节点上只考虑单个属性),许多复杂概念的表达困难,属性相互关系强调转载 2014-08-10 15:41:51 · 848 阅读 · 0 评论 -
闲来无事,用C写个朴素贝叶斯
#include #include #include using namespace std;const int MaxVocabNum = 50;char *postingList[] = { "my dog has flea problem help please", "maybe not take him to dog park stupid", "my dalmatio原创 2014-09-06 15:34:22 · 791 阅读 · 0 评论 -
使用LFM(Latent factor model)隐语义模型进行Top-N推荐
原文地址:http://blog.csdn.net/harryhuang1990/article/details/9924377最近在拜读项亮博士的《推荐系统实践》,系统的学习一下推荐系统的相关知识。今天学习了其中的隐语义模型在Top-N推荐中的应用,在此做一个总结。隐语义模型LFM和LSI,LDA,Topic Model其实都属于隐含语义分析技术,是一类概念,他们在本质上是相通的转载 2014-08-08 19:44:26 · 655 阅读 · 0 评论 -
TF-IDF简单学习与总结
TFIDF算法是建立在这样一个假设之上的:对区别文档最有意义的词语应该是那些在文档中出现频率高,而在整个文档集合的其他文档中出现频率少的词语原创 2014-08-03 10:14:40 · 2869 阅读 · 0 评论 -
Hash和Bloom Filter
本文转载自:http://www.sigma.me/2011/09/13/hash-and-bloom-filter.html这几天的“科研”中涉及到了一个概念,Bloom Filter(有的中文翻译为布隆过滤器,不知道正确否),今天看了下相关的资料,发现这东西和Hash还挺有关系的,在这里一并讲下。Hash(函数/表)Hash (中译为哈希,或者散列)函数在计算机领域,尤转载 2014-08-19 17:07:11 · 1528 阅读 · 0 评论 -
常见面试之机器学习算法思想简单梳理
转自:http://www.chinakdd.com/article-oyU85v018dQL0Iu.html前言: 找工作时(IT行业),除了常见的软件开发以外,机器学习岗位也可以当作是一个选择,不少计算机方向的研究生都会接触这个,如果你的研究方向是机器学习/数据挖掘之类,且又对其非常感兴趣的话,可以考虑考虑该岗位,毕竟在机器智能没达到人类水平之前,机器学习可以作为一种重要手段,而随着转载 2014-08-07 14:18:43 · 450 阅读 · 0 评论 -
AdaBoost 学习笔记
AdaBoost,是英文"Adaptive Boosting"(自适应增强)的缩写,是一种机器学习方法,由Yoav Freund和Robert Schapire提出。[1]AdaBoost方法的自适应在于:前一个分类器分错的样本会被用来训练下一个分类器。AdaBoost方法对于噪声数据和异常数据很敏感。但在一些问题中,AdaBoost方法相对于大多数其它学习算法而言,不会很容易出现过拟合现象。原创 2014-08-05 20:59:17 · 988 阅读 · 0 评论 -
我的逻辑回归认知
逻辑回归(Logistic regression)是用以解决分类的一种算法。y原创 2014-07-30 11:52:17 · 519 阅读 · 0 评论 -
Q9.4外排序
外排序原创 2014-07-11 10:45:17 · 457 阅读 · 0 评论 -
UGC简单学习与总结
Naive的算法:原创 2014-08-03 11:39:33 · 699 阅读 · 0 评论 -
推荐系统3种主要算法学习笔记与总结
音乐推荐与普通商品推荐的原创 2014-08-02 16:09:02 · 7122 阅读 · 0 评论 -
使用LFM(Latent factor model)隐语义模型进行Top-N推荐
原文地址:http://blog.csdn.net/harryhuang1990/article/details/9924377最近在拜读项亮博士的《推荐系统实践》,系统的学习一下推荐系统的相关知识。今天学习了其中的隐语义模型在Top-N推荐中的应用,在此做一个总结。隐语义模型LFM和LSI,LDA,Topic Model其实都属于隐含语义分析技术,是一类概念,他们在本质上是相通的转载 2016-01-01 17:34:56 · 356 阅读 · 0 评论