1024coding

简单事情,简单生活 ,qq592297182

Linux免密登录设置(22端口和非默认端口)

说明:本演示环境是居于CentOS的 准备 SSH为默认22端口的情况下设置 SSH为非默认端口的情况下设置

2018-10-18 13:48:07

阅读数 1302

评论数 0

Hive外部表和内部表区别以及相互转换

Hive建表语句 CREATE [EXTERNAL] TABLE [IF NOT EXISTS] [db_name.]table_name (col_name data_type [COMMENT 'col_comment'], ...) [PARTITIONED BY ...

2018-10-15 10:22:44

阅读数 4005

评论数 9

数据仓库相关概念

数据仓库概念 数据仓库即DataWareHouse,简称DW或DWH,百度百科定义为 数据仓库,是为企业所有级别的决策制定过程,提供所有类型数据支持的战略集合。它是单个数据存储,出于分析性报告和决策支持目的而创建。 为需要业务智能的企业,提供指导业务流程改进、监视时间、成本、质量以及控制 ...

2017-09-10 10:31:14

阅读数 479

评论数 0

Spark RDD 缓存

RDD缓存是Spark的一个重要特性,也是Spark速度快的原因之一,RDD在内存持久化或缓存之后,每一个节点都将把计算的分区结果留在内存中,并再对RDD进行其他的Action动作重用,这样后续的动作就会更快; 查看StorageLevel可以看到缓存的级别/** * Various [[or...

2017-08-27 20:11:26

阅读数 618

评论数 0

Spark RDD的转换

在RDD中的转换都是延迟的,惰性的,意思是说,不会说执行到这行转换代码计算出结果,比如下面的、当我debug代码运行到rdd2的时候,不知道rdd2的值是什么,只知道类型 最开始只是记住这些转换的来源,即上一个动作,只有当发生一个要求返回结果给Driver时,这些转换才会被执行,这样...

2017-08-27 12:00:25

阅读数 476

评论数 0

Google大数据三大论文-中文版

[Google Bigtable中文版][http://blog.bizcloudsoft.com/wp-content/uploads/Google-Bigtable%E4%B8%AD%E6%96%87%E7%89%88_1.0.pdf]

2017-08-26 17:16:50

阅读数 619

评论数 0

Spark RDD的定义和介绍

RDD是resilient distributed dataset的缩写即弹性分布式数据集 ,是Spark的核心也是基本所在 RDD是只读的、分区记录的集合,它只能基于在稳定物理存储中的数据和其他已有的RDD执行特定的操作来创建,它是逻辑集中的实体,在集群中的多台机器上进行了数据的分区,通过RD...

2017-08-16 23:12:52

阅读数 575

评论数 0

CDH集群开启Kerberos安全认证

在ClouderaManager中通过向导开启,kerberos启用可以通过对hadoop集群的各个服务的xml配置文件进行配置开启管理,但是由于需要配置的xml很多,还需要生成各个服务器的keytab文件,配置相当于繁琐,就算是老司机也很容易出错,而在在CM中管理kerberos启用,可以通过可...

2017-07-23 15:50:52

阅读数 5524

评论数 1

Scala模式匹配(match)使用

Scala模式匹配机制,有点类似java中switch语句,应用很广泛,一个模式匹配包含一系列的被选项,每一个选项通过case关键字开始,每个备选项都包含了一个模式及一到多个表达式,中间通过箭头隔开:

2017-07-23 15:14:40

阅读数 959

评论数 0

使用API访问开启kerberos集群下的HBASE

HBase连接

2017-07-22 15:20:24

阅读数 1303

评论数 0

使用API访问开启kerberos集群下的HDFS

# 使用 Java API访问开启安全Kerberos的Hdfs

2017-07-22 11:19:04

阅读数 2608

评论数 3

Linux 安装Kerberos认证KDC服务

最近需要给hadoop集群加上安全验证,采用kerberos作为认证,这里记录一下安装kerberos kdc的经验

2017-07-04 20:31:36

阅读数 7047

评论数 0

Shell:环境变量

转自:http://blog.csdn.net/p106786860/article/details/51318467 在大家初次接触到Linux系统中,相信环境变量会让你头疼不已。习惯了在Windows设置PATH的你,被Linux上各种文件可以设置环境变量头疼不已!对于可以在当前用户执行的命令...

2016-09-24 22:04:39

阅读数 457

评论数 0

Linux CentOS系统mysql的安装

linux环境:使用CentOS7使用RPM包进行安装1、下载mysql安装包,版本为5.6.26 地址: http://dev.mysql.com/get/Downloads/MySQL-5.6/MySQL-5.6.26-1.linux_glibc2.5.x86_64.rpm-bundle....

2016-09-24 17:15:09

阅读数 1574

评论数 0

Spark程序进行单元测试-使用scala

Spark 中进行一些单元测试技巧:最近刚写了一点Spark上的单元测试,发现一些小技巧,示例有是一些简单的伪代码,有问题或者不对的欢迎指正,有其他也欢迎补充rdd测试spark程序一般从集群中读取数据然后通过rdd进行转换,这其中涉及到集群,每次修改bug,上传到集群再运行测试,代价还是挺大;所...

2016-09-24 14:42:05

阅读数 3909

评论数 0

CDH5.7.2-Hadoop集群CentOS7下的搭建(离线安装)

说明:在本地虚拟机环境中进行CDH5.7.2集群的搭建,在搭建之前请先在虚拟机上装好三台CentOS7,三台内存分别为8g,2g,2g,博客为原创,转载请标明出处,另外由于各环境有版本等情况不同,大家在安装时特别是第一次安装的时候可能遇到的坑与我遇到的不一样,这个时候要仔细看下agent和serv...

2016-09-24 09:53:10

阅读数 34464

评论数 28

Linux下shell计算两个日期之间的时间天数差,并获取出中间的日期

整个Shell脚本写法如下THIS_PATH=$(cd `dirname $0`;pwd) cd $THIS_PATH ##要求传入的数据格式为yyyyMMdd的两个开始和结束参数,如20160901 20160910 start=$1 end=$2 ##将输入的日期转为的时间戳格式 startD...

2016-09-19 23:19:53

阅读数 13339

评论数 0

Linux下Shell命令加减乘除计算

使用 expr命令 (其中做乘的时候*号要用斜杠进行转义) 除于 [hadoop-user@hadoop1]$ echo `expr 9 / 3` 3加 [hadoop-user@hadoop1]$ echo `expr 9 + 3` 12减 [hadoop-user@hadoop1]$ echo...

2016-09-19 23:08:00

阅读数 6330

评论数 0

Spark 获取jdbc Rdd

Spark中获取Jdbc的RDD有两种方式:一种是内置了JdbcRDD类,通过new该类就能对通过Jdbc读取数据并且转换成Rdd,另一种是通过SparkSQL中SQLContext jdbc方法获取DataFrame,然后 其中第一种方法在1.3和1.5基本一样,其构造函数如下: c...

2016-09-19 22:57:41

阅读数 795

评论数 0

Linux下Shell中日期格式使用

获取当前日志(一般默认是CST标准格式)-bash-4.1$ date Tue Sep 13 09:56:58 CST 2016获取特定以特定格式(date + ‘format’,注意格式的大小写表示了不同格式)-bash-4.1$ date +'%Y-%m-%d' 2016-09-13 -bas...

2016-09-14 22:12:48

阅读数 910

评论数 0

提示
确定要删除当前文章?
取消 删除
关闭
关闭