自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(8)
  • 收藏
  • 关注

原创 R语言主成分分析——prcomp VS princomp

最简单的主成分分析函数,prcomp 和 princomp 都是自带的函数,不需要额外的包http://strata.uga.edu/software/pdf/pcaTutorial.pdf很好的一个介绍http://gastonsanchez.wordpress.com/2012/06/17/principal-components-analysis-in-r-part-1/很好的一

2013-11-23 04:47:01 45422

翻译 Hadoop-Mapper-Reducer文档学习

直接翻译from Apache Document...纯自我熟悉为目的整理org.apache.hadoop.mapreduce Class MapperMaps input key/value pairs to a set of intermediate key/value pairs.Maps是将输入记录转运成中介记录的独立任务。中介记录不需要和输入记录一个type.

2013-11-18 13:54:19 1407

转载 决策树生长与修剪(一股黄土地气场)

简介与思想:如果一个人必须去选择在很大范围的情形下性能都好的、同时不需要应用开发者付出很多的努力并且易于被终端用户理解的分类技术的话,那么分类树方法是一个强有力的分类。分类树在分类树下面有两个关键的思想。第一个是关于递归地划分自变量空间的想法;第二个想法是用验证数据进行剪枝。递归划分让我们用变量y表示因变量(分类变量output),用x1, x2,

2013-11-13 23:17:46 1803

翻译 Information Theory in Data Mining & Decision Trees learning

Information Theory provides a powerful framework for dealing withsymbolic data.(和numeric相对)y : symbolic attribute of arity Ay• Information content 信息含量of one of Ay values of y,  yi:  I(yi) = -

2013-11-12 12:45:15 1072 1

翻译 k Nearest Neighbors 简介

Pdf 来源Western University最近邻居法(KNN算法,又译K-近邻算法)是ML最简单分类的方法之一。需要分类的样本依据k个最邻近的样本分类。K的选择:理论上说如果样本无限多,那么k越大越好。但是这些邻居必须相近。而且,样本怎么可能无限多呢。所以,一般来说kk=1计算效率高,但是超级会被noise影响理论上最佳error会是Bayes rate E* (

2013-11-08 13:24:17 1284

翻译 Data Mining Week3 - Association Rules & Decision List

关联式规则(gender=male) and (wealth=rich)→ (age=old)BODYHEAD(LHS, “Left-Hand-Side”, antecendent) (RHS, consequent)如果没有body,也可以有default head, the most common value (MCV) 定义SUPPORT: 数据中符合

2013-11-05 11:37:20 1179

原创 Data Mining Week2 - L2 ROC方法二元分

预测准确性:confusion matrix • TP also called “hit”, TN: “correct rejection”• FP: “false alarm”, “type I error”• FN: “miss”, “type II error”rate all based on the actual sums• TP rate = TP/Pos

2013-11-04 06:30:45 1529

原创 Data Mining Week2 - L1

Data Mining is really demanding for me...This week the TA held the lecture. I am not going to bitch too much about him, but just organize the notes myself.outline–Naïve Bayesian Cl

2013-11-04 02:06:14 1491

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除