2016年08月_Xlucas

原创 spark transformation和action算子

spark transformation和action的算子 map(func) 返回一个新的分布式数据集，由每个原元素经过func函数处理后的新元素组成 filter(func) 返回一个新的数据集，由经过func函数处理后返回值为true的原元素组成 flatMap(func) 类似于map，但是每一个输入元素，会被映射为0个或多个输出元素，(因此，func函数的返回值是一个seq，

2016-08-30 00:35:45 5228

原创 spark运行模式一些概念

spark的运行模式多种多样，在单机上既可以以本地模式运行，也可以以伪分布式模式运行，而当以分布式的方式运行在cluster集群中时，底层的资源调度可以使用mesos或者yarn，也可以使用spark自带的standalone模式。在具体介绍每一种模式之前，首先对一些基本的概念和模型做个介绍 1、application：application的概念和hadoop mapreduce中的

2016-08-29 00:16:33 859

原创 oracle的查询数据表（五）

排序通过在查询结果中应用排序，可以使得查询的结果顺序按照指定的顺序进行排序，在select子句中可以使用order by子句排序，可以为order by子句指定一个表达式或一个列名作为排序的条件注意：order by 子句必须是select语句的最后一个子句，否则select语句将会执行失败 select expr from table [where condition(s

2016-08-28 18:50:25 852

原创 HBASE安装

集群安装： 1、上传安装包 2、解压安装包tar -xvf hbase-0.96.2-hadoop2-bin.tar.gz -C /home/hadoop/ 3、修改hbase-env.sh export JAVA_HOME=/usr/java/jdk1.7.0_55//告诉hbase使用外部的zk export HBASE_MANAGES_ZK=false 4、修改 hbase

2016-08-28 17:47:17 568

原创 spark运行架构

概念 job :包含多个task组成的并行计算，往往由spark action催生 stage job的调度单位，对应于taskset taskset 一组关联的相互之间没有shuffle依赖关系的人去组成的任务集 task 被送到某个executor上的工作单元通常一个partition上面就是一个task1、spark 程序分2部分，一个是以sparkContext的 Driver

2016-08-26 00:20:08 587

原创 Sqoop调用存储过程

Sqoop 调用存储过程小编这几天一直在尝试用sqoop直接调用oracle里面的存储过程,玩了2天都没有搞定,一直尝试用 export里面的 call命令去调用存储过程,我需要实现的就是在同步数据之前先将oracle里面这张表的数据清空,在同步.总是出这个错误,这个我在dual表里面放了一条记录，还是不行，对于这个call的用户一直没有得到很好的解决，sqoop export --connec

2016-08-16 23:51:34 2640

原创 oracle的查询数据表（五）

判断NULL值当要检查列中是否包含空值的时候，需要使用is null 或者is not null语句，null通常为空值，空值的意思就是未指定的，不存在的值，不能与空白值相混淆，空白值是一个村庄的，只是值为空白的值，select * from emp where mgr is null使用逻辑组合在where子句中除了使用单个布尔表达式外，还可以通过使用逻辑条件组合两个或多个比较条件

2016-08-16 23:40:19 464

原创 TEZ的安装以及测试

TEZ 0.5以后得版本和hive0.13不兼容1、先解压编译好的tez包 tar -xvf tez-0.7.0.tar.gz -C /home/hadoop/tez 2、在hdfs上面创建一个目录，并且将tez包上传到hdfs上[hadoop@master tez]$ hadoop fs -mkdir /tez16/04/04 06:47:53 WARN util.NativeCodeLoa

2016-08-16 00:02:11 1763

原创 TEZ 0.7和0.8的编译

在tez编译过程中会遇到各种各样的问题，如果你是编译0.5的，因为0.5中没有tez-ui所以编译过程中基本没有什么问题，先准备环境 1、linux 环境，我的是centos6.4 32位的 2、可编译的maven环境我这边用得maven3.3.9的环境 3、protoc的版本是2.5.0 4、需要安装nodejs npm bower git protoc版本 [root@loc

2016-08-15 23:57:07 1389 2

原创 Mapreduce中context的作用

在我们写mapreduce的程序时候总会有这么一段代码，这个代码就是map方法的实现，里面有一个参数 context对象，但是这个context对象究竟是干什么的呢？ public void map(Object key, Text value, Context context ) throws IOException, InterruptedExceptio

2016-08-14 23:47:43 10028

原创 Spark-shell编程

RDD的partition分片，每个partition由一个task来处理 //parallelize演示 val num=sc.parallelize(1 to 10) 创建一个1到10的数组，默认和executor的个数一样 val doublenum=num.map(_*2) 数组的每个值乘以 2 val threenum=doublenum.filter(_%3 ==0)

2016-08-14 23:31:51 765

原创 oracle的查询数据表（四）

使用范围操作符使用范围操作符，可以比较一定范围的数据，比如比较2个数字值之间的值，或者是使用like操作符进行模糊查询，在oracle sql 中可是使用的范围操作符如下 3、1 between-and 操作符：要比较的值是否在2个值之间 3、2 in操作符：要比较的值是否在任意的值列表中间 3、3 like：通过使用通配符来匹配一个字符模

2016-08-14 20:48:22 854

原创 oracle的查询数据表（三）

1、指定查询条件如果要按照条件进行查询，可以使用where子句来过滤所返回的行数据，语法如下select *|{[distinct] column|expression [alias],...} from table [where condition(s)];where 子句紧跟在from子句的后面，其语法含义如下所示， 1、where关键字:限制满足查询条件的行 2

2016-08-14 14:19:04 794

原创 spark编程模型二

并行化scala集合 1、spark使用parallelize方法转换成RDD 2、val rdd1=sc.Parallelize(Array(1,2,3,4,5)) 3、val rdd2=sc.Parallelize(List(0 to 10),5) 4、参数slice是对数据集切片，每一个slice启动一个task进行处理hadoop数据集 1、spark可以将任何hadoop所支持

2016-08-09 23:56:19 667

原创 oracle的查询数据表（二）

3、使用distinct查询唯一列数据可以使用distinct关键字获取列中的唯一值，例如要查询emp表中唯一职位列表，可以使用关键字distinct select distinct job from emp; 注意 distinct 关键字会导致索引失效，在大型数据集查询中应该尽量避免distinct查询4、在查询中使用表达式在查找中可以使用复杂的表达式，比如执行计算

2016-08-09 23:42:12 907

介绍：在操纵oracle数据的过程中，使用select的各种组合查询数据库表数据是DBA和开发人员用得最频繁工作之一，查询数据库主要是通过操纵select语句来完成的，接下来我们介绍如果使用select语句实现各种各样的数据查询，统计，分组及汇总等操作。select的基本语法： select {[alias.]column | expression | [alias.]* [, … ] } fro

2016-08-09 23:16:56 837

原创 Oracle系统表

dba_开头….. dba_users 数据库用户信息 dba_segments 表段信息 dba_extents 数据区信息 dba_objects 数据库对象信息 dba_tablespaces 数据库表空间信息 dba_data_files 数据文件设置信息 dba_temp_files 临时数据文件信息 dba_rollback_segs 回滚段信息 dba_ts_quo

2016-08-09 23:08:22 790

原创 spark编程模型

1、spark应用程序有两部分组成： –driver –executor 2、spark应用程序基本概念 application：基于spark的用户程序，包含了driver program和集群中多个executor driver program：运行application的main()函数并且创建sparkcontext，通常用sparkcontext代表driver program

2016-08-09 23:06:05 479

Xlucas的博客

原创 spark transformation和action算子

原创 spark运行模式一些概念

原创 oracle的查询数据表（五）

原创 HBASE安装

原创 spark运行架构

原创 Sqoop调用存储过程

原创 oracle的查询数据表（五）

原创 TEZ的安装以及测试

原创 TEZ 0.7和0.8的编译

原创 Mapreduce中context的作用

原创 Spark-shell编程

原创 oracle的查询数据表（四）

原创 oracle的查询数据表（三）

原创 spark编程模型二

原创 oracle的查询数据表（二）

原创 oracle的查询数据表（一）

原创 Oracle系统表

原创 spark编程模型

selenium2.53包

selenium2.53软件包

空空如也