ML
文章平均质量分 51
wangzhiqing3
学生
展开
-
DM与ML的主要区别
1. DM更应用化,ML更偏研究与算法(所以公司一般有数据挖掘工程师,机器学习研究员)2. ML的问题经常是明确定义的,包括数据集及目标(且数据集是固定的);DM通常只定义目标,甚至连目标也没有(给你一堆数据,给我找出有价值、有意思的东西出来); 在定义了目标的情况下,DM可以使用非固定的数据源3. ML只是DM使用的方法的一种,DM还可以使用其他的方法(比如统计,比如直接看数据)原创 2013-01-06 16:32:28 · 5164 阅读 · 1 评论 -
机器学习中的算法(1)-决策树模型组合之随机森林与GBDT
本文由LeftNotEasy发布于http://leftnoteasy.cnblogs.com, 本文可以被全部的转载或者部分使用,但请注明出处,如果有问题,请联系wheeleast@gmail.com前言: 决策树这种算法有着很多良好的特性,比如说训练时间复杂度较低,预测的过程比较快速,模型容易展示(容易将得到的决策树做成图片展示出来)等。但是同时,单决策树又有一些转载 2013-04-25 15:56:27 · 824 阅读 · 0 评论 -
推荐算法系列(一)
先写个序吧,最近参加阿里巴巴的笔试,遇到推荐算法,很受打击,以前总想看,但一直推,推到现在也没看,人就是这样要时不时的给自己一个打击,才能更近一部。现在开个版块,打算把推荐算法从头到尾学习一下。先吃饭一会再写哈。。。原创 2013-05-25 11:40:56 · 749 阅读 · 0 评论 -
adaboost算法与meta-analysis方法
先写个标题,然后总结原创 2013-05-25 11:42:06 · 740 阅读 · 0 评论 -
新的图模型及机器学习并行框架利器----GraphLab+Graphbuilder
在海量数据盛行的今天,大规模并行计算已经随处可见,尤其是MapReduce框架的出现,促进了并行计算在互联网海量数据处理中的广泛应用。而针对海量数据的机器学习对并行计算的性能、开发复杂度等提出了新的挑战。 机器学习算法具有下面两个特点:数据依赖性强,运算过程各个机器之间要进行频繁的数据交换;流处理复杂,整个处理过程需要多次迭代,数据的处理条件分支多。 而Ma转载 2013-05-15 13:24:03 · 975 阅读 · 0 评论 -
ROC 曲线
tt作为一个ML研究者如果你没听过 ROC curve 那你就不能称之为一个good student,^_^,开个玩笑。假如用ROC来评价一个分类器最好不过了,什么准确率/召回率靠边站吧。涉及到的到名词:TP/ FP TN/FN (突然意识到其实 true positive and false true negative and false negative 只要是因为早期用原创 2013-06-22 00:53:19 · 990 阅读 · 0 评论 -
从K近邻算法、距离度量谈到KD树、SIFT+BBF算法
前言 前两日,在微博上说:“到今天为止,我至少亏欠了3篇文章待写:1、KD树;2、神经网络;3、编程艺术第28章。你看到,blog内的文章与你于别处所见的任何都不同。于是,等啊等,等一台电脑,只好等待..”。得益于田,借了我一台电脑(借他电脑的时候,我连表示感谢,他说“能找到工作全靠你的博客,这点儿小忙还说,不地道”,有的时候,稍许感受到受人信任也是一种压力,愿我不辜负大家对我的信任转载 2013-10-18 19:52:30 · 5660 阅读 · 0 评论 -
特征选择之信息增益
文本分类入门(十一)特征选择方法之信息增益前文提到过,除了开方检验(CHI)以外,信息增益(IG,Information Gain)也是很有效的特征选择方法。但凡是特征选择,总是在将特征的重要程度量化之后再进行选择,而如何量化特征的重要性,就成了各种方法间最大的不同。开方检验中使用特征与类别间的关联性来进行这个量化,关联性越强,特征得分越高,该特征越应该被保留。在信息增益中,重要性原创 2013-10-19 16:58:58 · 3994 阅读 · 0 评论