自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(18)
  • 资源 (2)
  • 收藏
  • 关注

原创 spark transformation和action算子

spark transformation和action的算子 map(func) 返回一个新的分布式数据集,由每个原元素经过func函数处理后的新元素组成 filter(func) 返回一个新的数据集,由经过func函数处理后返回值为true的原元素组成 flatMap(func) 类似于map,但是每一个输入元素,会被映射为0个或多个输出元素,(因此,func函数的返回值是一个seq,

2016-08-30 00:35:45 5228

原创 spark运行模式一些概念

spark的运行模式多种多样,在单机上既可以以本地模式运行,也可以以伪分布式模式运行,而当以分布式的方式运行在cluster集群中时,底层的资源调度可以使用mesos或者yarn,也可以使用spark自带的standalone模式。 在具体介绍每一种模式之前,首先对一些基本的概念和模型做个介绍 1、application:application的概念和hadoop mapreduce中的

2016-08-29 00:16:33 859

原创 oracle的查询数据表(五)

排序 通过在查询结果中应用排序,可以使得查询的结果顺序按照指定的顺序进行排序,在select子句中可以使用order by子句排序,可以为order by子句指定一个表达式或一个列名作为排序的条件 注意:order by 子句必须是select语句的最后一个子句,否则select语句将会执行失败 select expr from table [where condition(s

2016-08-28 18:50:25 852

原创 HBASE安装

集群安装: 1、 上传安装包 2、 解压安装包tar -xvf hbase-0.96.2-hadoop2-bin.tar.gz -C /home/hadoop/ 3、 修改hbase-env.sh export JAVA_HOME=/usr/java/jdk1.7.0_55//告诉hbase使用外部的zk export HBASE_MANAGES_ZK=false 4、 修改 hbase

2016-08-28 17:47:17 568

原创 spark运行架构

概念 job :包含多个task组成的并行计算,往往由spark action催生 stage job的调度单位,对应于taskset taskset 一组关联的相互之间没有shuffle依赖关系的人去组成的任务集 task 被送到某个executor上的工作单元 通常一个partition上面就是一个task1、spark 程序分2部分,一个是以sparkContext的 Driver

2016-08-26 00:20:08 587

原创 Sqoop调用存储过程

Sqoop 调用存储过程小编这几天一直在尝试用sqoop直接调用oracle里面的存储过程,玩了2天都没有搞定,一直尝试用 export里面的 call命令去调用存储过程,我需要实现的就是在同步数据之前先将oracle里面这张表的数据清空,在同步.总是出这个错误,这个我在dual表里面放了一条记录,还是不行,对于这个call的用户一直没有得到很好的解决,​sqoop export --connec

2016-08-16 23:51:34 2640

原创 oracle的查询数据表(五)

判断NULL值 当要检查列中是否包含空值的时候,需要使用is null 或者is not null语句,null通常为空值,空值的意思就是未指定的,不存在的值,不能与空白值相混淆,空白值是一个村庄的,只是值为空白的值,select * from emp where mgr is null使用逻辑组合 在where子句中除了使用单个布尔表达式外,还可以通过使用逻辑条件组合两个或多个比较条件

2016-08-16 23:40:19 464

原创 TEZ的安装以及测试

TEZ 0.5以后得版本和hive0.13不兼容1、先解压编译好的tez包 tar -xvf tez-0.7.0.tar.gz -C /home/hadoop/tez 2、在hdfs上面创建一个目录,并且将tez包上传到hdfs上[hadoop@master tez]$ hadoop fs -mkdir /tez16/04/04 06:47:53 WARN util.NativeCodeLoa

2016-08-16 00:02:11 1763

原创 TEZ 0.7和0.8的编译

在tez编译过程中会遇到各种各样的问题,如果你是编译0.5的,因为0.5中没有tez-ui所以编译过程中基本没有什么问题, 先准备环境 1、linux 环境,我的是centos6.4 32位的 2、可编译的maven环境 我这边用得maven3.3.9的环境 3、protoc的版本是2.5.0 4、需要安装nodejs npm bower git protoc版本 [root@loc

2016-08-15 23:57:07 1389 2

原创 Mapreduce中context的作用

在我们写mapreduce的程序时候总会有这么一段代码,这个代码就是map方法的实现,里面有一个参数 context对象,但是这个context对象究竟是干什么的呢? public void map(Object key, Text value, Context context ) throws IOException, InterruptedExceptio

2016-08-14 23:47:43 10028

原创 Spark-shell编程

RDD的partition分片,每个partition由一个task来处理 //parallelize演示 val num=sc.parallelize(1 to 10) 创建一个1到10的数组,默认和executor的个数一样 val doublenum=num.map(_*2) 数组的每个值乘以 2 val threenum=doublenum.filter(_%3 ==0)

2016-08-14 23:31:51 765

原创 oracle的查询数据表(四)

使用范围操作符 使用范围操作符,可以比较一定范围的数据,比如比较2个数字值之间的值,或者是使用like操作符进行模糊查询,在oracle sql 中可是使用的范围操作符如下 3、1 between-and 操作符:要比较的值是否在2个值之间 3、2 in操作符:要比较的值是否在任意的值列表中间 3、3 like:通过使用通配符来匹配一个字符模

2016-08-14 20:48:22 854

原创 oracle的查询数据表(三)

1、指定查询条件 如果要按照条件进行查询,可以使用where子句来过滤所返回的行数据,语法如下select *|{[distinct] column|expression [alias],...} from table [where condition(s)];where 子句紧跟在from子句的后面,其语法含义如下所示, 1、where关键字:限制满足查询条件的行 2

2016-08-14 14:19:04 794

原创 spark编程模型二

并行化scala集合 1、spark使用parallelize方法转换成RDD 2、val rdd1=sc.Parallelize(Array(1,2,3,4,5)) 3、val rdd2=sc.Parallelize(List(0 to 10),5) 4、参数slice是对数据集切片,每一个slice启动一个task进行处理hadoop数据集 1、spark可以将任何hadoop所支持

2016-08-09 23:56:19 667

原创 oracle的查询数据表(二)

3、使用distinct查询唯一列数据 可以使用distinct关键字获取列中的唯一值,例如要查询emp表中唯一职位列表,可以使用关键字distinct select distinct job from emp; 注意 distinct 关键字会导致索引失效,在大型数据集查询中应该尽量避免distinct查询4、在查询中使用表达式 在查找中可以使用复杂的表达式,比如执行计算

2016-08-09 23:42:12 907

原创 oracle的查询数据表(一)

介绍:在操纵oracle数据的过程中,使用select的各种组合查询数据库表数据是DBA和开发人员用得最频繁工作之一,查询数据库主要是通过操纵select语句来完成的,接下来我们介绍如果使用select语句实现各种各样的数据查询,统计,分组及汇总等操作。select的基本语法: select {[alias.]column | expression | [alias.]* [, … ] } fro

2016-08-09 23:16:56 837

原创 Oracle系统表

dba_开头….. dba_users 数据库用户信息 dba_segments 表段信息 dba_extents 数据区信息 dba_objects 数据库对象信息 dba_tablespaces 数据库表空间信息 dba_data_files 数据文件设置信息 dba_temp_files 临时数据文件信息 dba_rollback_segs 回滚段信息 dba_ts_quo

2016-08-09 23:08:22 790

原创 spark编程模型

1、spark应用程序有两部分组成: –driver –executor 2、spark应用程序基本概念 application:基于spark的用户程序,包含了driver program和集群中多个executor driver program:运行application的main()函数并且创建sparkcontext,通常用sparkcontext代表driver program

2016-08-09 23:06:05 479

selenium2.53包

此包包含了IE、google的驱动文件,是selenium2.53的软件,详细的环境搭建请查看博客

2016-10-08

selenium2.53软件包

自动化测试selenium2.53软件包,包含了ide 和IE、google的驱动包

2016-10-07

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除