自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

jiabiao1602的专栏

专注于数据分析与挖掘、R语言、大数据领域

  • 博客(6)
  • 收藏
  • 关注

转载 分类器性能评价:图形方法(1)

原文地址:http://site.douban.com/182577/widget/notes/10567212/note/348006411/ 1.几个基本概念 对于二元分类器,我们可以把分类样本的真实值记为1(positive,正例/阳性),-1(或0,negative,负例/阴性)分类结果记作1(success)和-1(或0,failure)。分类器分类正确,为真(true);分类器

2015-03-30 19:30:19 1271

转载 用gbm包来提升决策树能力

中国有句老话:三个臭皮匠,顶个诸葛亮。这个说法至少在变形金刚中得到了体现,没有组合之前的大力神只是五个可以被柱子哥随手秒掉工地苦力。但组合之后却是威力大增。在机器学习领域也是如此,一堆能力一般的“弱学习器”也能组合成一个“强学习器”。前篇文章提到的随机森林就是一种组合学习的方法,本文要说的是另一类组合金刚:提升方法(Boosting)。提升方法是一大类集成分类学习的统称。它用不同的权重将基学习器进

2015-03-26 11:34:25 5428 4

转载 用Parallel和foreach包玩转并行计算

众所周知,在大数据时代R语言有两个弱项,其中一个就是只能使用单线程计算。但是在2.14版本之后,R就内置了parallel包,强化了R的并行计算能力。parallel包实际上整合了之前已经比较成熟的snow包和multicore包。前者已经在之前的文章中介绍过了,而后者无法在windows下运行,所以也就先不管了。parallel包可以很容易的在计算集群上实施并行计算,在多个CPU核心的单机上,也

2015-03-26 11:33:51 4027

转载 Hive函数大全

一、关系运算: 1. 等值比较: =          语法:A=B          操作类型:所有基本类型          描述: 如果表达式A与表达式B相等,则为TRUE;否则为FALSE          举例:          hive>select 1 from lxw_dual where 1=1;          1 2. 不等

2015-03-05 12:43:55 552

转载 Hadoop Hive sql语法详解

原文地址:http://blog.csdn.net/hguisu/article/details/7256833 Hive 是基于Hadoop 构建的一套数据仓库分析系统,它提供了丰富的SQL查询方式来分析存储在Hadoop 分布式文件系统中的数据,可以将结构 化的数据文件映射为一张数据库表,并提供完整的SQL查询功能,可以将SQL语句转换为MapReduce任务进行运行,通过

2015-03-05 10:01:29 459

转载 hive mapjoin使用

原文地址:http://blog.csdn.net/xqy1522/article/details/6699740 今天遇到一个hive的问题,如下hive sql: select f.a,f.b from A t join B f  on ( f.a=t.a and f.ftime=20110802)   该语句中B表有30亿行记录,A表只有100行

2015-03-05 09:57:50 420

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除