数据挖掘
提灯夜行者
机器学习数据挖掘检索开源框架爱好者
展开
-
LDA模型
原文的主要内容 有两种方法设计分类器: 1. discriminative model,就是由样本直接设计判别函数,例如SVM; 2. generative model,就是先从样本恢复概率模型——例如我们熟悉的参数方法:混合高斯模型GMM;非参数方法Parzen窗。然后再充分挖掘模型,用以分类。例如Bayes最大后验概率准则;或者将模型中的参数当转载 2012-02-29 15:57:38 · 1374 阅读 · 0 评论 -
基于用户投票的排名算法
转自阮一峰的博客,非本人所写。基于用户投票的排名算法(一):Delicious和Hacker News:http://www.ruanyifeng.com/blog/2012/02/ranking_algorithm_hacker_news.html基于用户投票的排名算法(二):Reddithttp://www.ruanyifeng.com/blog/2012/03转载 2012-03-20 17:13:08 · 395 阅读 · 0 评论 -
数据挖掘易犯的11大错误与数据分析技能
0. 缺乏数据(Lack Data)对于分类问题或预估问题来说,常常缺乏准确标注的案例。例如:-欺诈侦测(Fraud Detection):在上百万的交易中,可能只有屈指可数的欺诈交易,还有很多的欺诈交易没有被正确标注出来,这就需要在建模前花费大量人力来修正。-信用评分(Credit Scoring):需要对潜在的高风险客户进行长期跟踪(比如两年),从而积累足够的评分样本。转载 2012-03-21 18:31:35 · 1757 阅读 · 0 评论