- 博客(18)
- 资源 (2)
- 收藏
- 关注
原创 spark transformation和action算子
spark transformation和action的算子 map(func) 返回一个新的分布式数据集,由每个原元素经过func函数处理后的新元素组成 filter(func) 返回一个新的数据集,由经过func函数处理后返回值为true的原元素组成 flatMap(func) 类似于map,但是每一个输入元素,会被映射为0个或多个输出元素,(因此,func函数的返回值是一个seq,
2016-08-30 00:35:45 5228
原创 spark运行模式一些概念
spark的运行模式多种多样,在单机上既可以以本地模式运行,也可以以伪分布式模式运行,而当以分布式的方式运行在cluster集群中时,底层的资源调度可以使用mesos或者yarn,也可以使用spark自带的standalone模式。 在具体介绍每一种模式之前,首先对一些基本的概念和模型做个介绍 1、application:application的概念和hadoop mapreduce中的
2016-08-29 00:16:33 859
原创 oracle的查询数据表(五)
排序 通过在查询结果中应用排序,可以使得查询的结果顺序按照指定的顺序进行排序,在select子句中可以使用order by子句排序,可以为order by子句指定一个表达式或一个列名作为排序的条件 注意:order by 子句必须是select语句的最后一个子句,否则select语句将会执行失败 select expr from table [where condition(s
2016-08-28 18:50:25 852
原创 HBASE安装
集群安装: 1、 上传安装包 2、 解压安装包tar -xvf hbase-0.96.2-hadoop2-bin.tar.gz -C /home/hadoop/ 3、 修改hbase-env.sh export JAVA_HOME=/usr/java/jdk1.7.0_55//告诉hbase使用外部的zk export HBASE_MANAGES_ZK=false 4、 修改 hbase
2016-08-28 17:47:17 568
原创 spark运行架构
概念 job :包含多个task组成的并行计算,往往由spark action催生 stage job的调度单位,对应于taskset taskset 一组关联的相互之间没有shuffle依赖关系的人去组成的任务集 task 被送到某个executor上的工作单元 通常一个partition上面就是一个task1、spark 程序分2部分,一个是以sparkContext的 Driver
2016-08-26 00:20:08 587
原创 Sqoop调用存储过程
Sqoop 调用存储过程小编这几天一直在尝试用sqoop直接调用oracle里面的存储过程,玩了2天都没有搞定,一直尝试用 export里面的 call命令去调用存储过程,我需要实现的就是在同步数据之前先将oracle里面这张表的数据清空,在同步.总是出这个错误,这个我在dual表里面放了一条记录,还是不行,对于这个call的用户一直没有得到很好的解决,sqoop export --connec
2016-08-16 23:51:34 2640
原创 oracle的查询数据表(五)
判断NULL值 当要检查列中是否包含空值的时候,需要使用is null 或者is not null语句,null通常为空值,空值的意思就是未指定的,不存在的值,不能与空白值相混淆,空白值是一个村庄的,只是值为空白的值,select * from emp where mgr is null使用逻辑组合 在where子句中除了使用单个布尔表达式外,还可以通过使用逻辑条件组合两个或多个比较条件
2016-08-16 23:40:19 464
原创 TEZ的安装以及测试
TEZ 0.5以后得版本和hive0.13不兼容1、先解压编译好的tez包 tar -xvf tez-0.7.0.tar.gz -C /home/hadoop/tez 2、在hdfs上面创建一个目录,并且将tez包上传到hdfs上[hadoop@master tez]$ hadoop fs -mkdir /tez16/04/04 06:47:53 WARN util.NativeCodeLoa
2016-08-16 00:02:11 1763
原创 TEZ 0.7和0.8的编译
在tez编译过程中会遇到各种各样的问题,如果你是编译0.5的,因为0.5中没有tez-ui所以编译过程中基本没有什么问题, 先准备环境 1、linux 环境,我的是centos6.4 32位的 2、可编译的maven环境 我这边用得maven3.3.9的环境 3、protoc的版本是2.5.0 4、需要安装nodejs npm bower git protoc版本 [root@loc
2016-08-15 23:57:07 1389 2
原创 Mapreduce中context的作用
在我们写mapreduce的程序时候总会有这么一段代码,这个代码就是map方法的实现,里面有一个参数 context对象,但是这个context对象究竟是干什么的呢? public void map(Object key, Text value, Context context ) throws IOException, InterruptedExceptio
2016-08-14 23:47:43 10028
原创 Spark-shell编程
RDD的partition分片,每个partition由一个task来处理 //parallelize演示 val num=sc.parallelize(1 to 10) 创建一个1到10的数组,默认和executor的个数一样 val doublenum=num.map(_*2) 数组的每个值乘以 2 val threenum=doublenum.filter(_%3 ==0)
2016-08-14 23:31:51 765
原创 oracle的查询数据表(四)
使用范围操作符 使用范围操作符,可以比较一定范围的数据,比如比较2个数字值之间的值,或者是使用like操作符进行模糊查询,在oracle sql 中可是使用的范围操作符如下 3、1 between-and 操作符:要比较的值是否在2个值之间 3、2 in操作符:要比较的值是否在任意的值列表中间 3、3 like:通过使用通配符来匹配一个字符模
2016-08-14 20:48:22 854
原创 oracle的查询数据表(三)
1、指定查询条件 如果要按照条件进行查询,可以使用where子句来过滤所返回的行数据,语法如下select *|{[distinct] column|expression [alias],...} from table [where condition(s)];where 子句紧跟在from子句的后面,其语法含义如下所示, 1、where关键字:限制满足查询条件的行 2
2016-08-14 14:19:04 794
原创 spark编程模型二
并行化scala集合 1、spark使用parallelize方法转换成RDD 2、val rdd1=sc.Parallelize(Array(1,2,3,4,5)) 3、val rdd2=sc.Parallelize(List(0 to 10),5) 4、参数slice是对数据集切片,每一个slice启动一个task进行处理hadoop数据集 1、spark可以将任何hadoop所支持
2016-08-09 23:56:19 667
原创 oracle的查询数据表(二)
3、使用distinct查询唯一列数据 可以使用distinct关键字获取列中的唯一值,例如要查询emp表中唯一职位列表,可以使用关键字distinct select distinct job from emp; 注意 distinct 关键字会导致索引失效,在大型数据集查询中应该尽量避免distinct查询4、在查询中使用表达式 在查找中可以使用复杂的表达式,比如执行计算
2016-08-09 23:42:12 907
原创 oracle的查询数据表(一)
介绍:在操纵oracle数据的过程中,使用select的各种组合查询数据库表数据是DBA和开发人员用得最频繁工作之一,查询数据库主要是通过操纵select语句来完成的,接下来我们介绍如果使用select语句实现各种各样的数据查询,统计,分组及汇总等操作。select的基本语法: select {[alias.]column | expression | [alias.]* [, … ] } fro
2016-08-09 23:16:56 837
原创 Oracle系统表
dba_开头….. dba_users 数据库用户信息 dba_segments 表段信息 dba_extents 数据区信息 dba_objects 数据库对象信息 dba_tablespaces 数据库表空间信息 dba_data_files 数据文件设置信息 dba_temp_files 临时数据文件信息 dba_rollback_segs 回滚段信息 dba_ts_quo
2016-08-09 23:08:22 790
原创 spark编程模型
1、spark应用程序有两部分组成: –driver –executor 2、spark应用程序基本概念 application:基于spark的用户程序,包含了driver program和集群中多个executor driver program:运行application的main()函数并且创建sparkcontext,通常用sparkcontext代表driver program
2016-08-09 23:06:05 479
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人