Huidoo_Yang

博主博客园主页链接:http://www.cnblogs.com/yangp

RDD概念、特性、缓存策略与容错

一、RDD概念与特性 1. RDD的概念   RDD(Resilient Distributed Dataset),是指弹性分布式数据集。数据集:Spark中的编程是基于RDD的,将原始数据加载到内存变成RDD,RDD再经过若干次转化,仍为RDD。分布式:读数据一般都是从...

2018-04-01 15:45:41

阅读数 425

评论数 0

[ETL] Flume 理论与demo(Taildir Source & Hdfs Sink)

一、Flume简介 1. Flume概述   Flume是Cloudera提供的一个高可用的,高可靠的,分布式的海量日志采集、聚合和传输的系统,Flume支持在日志系统中定制各类数据发送方,用于收集数据;同时,Flume提供对数据进行简单处理,并写到各种数据接受方(可定制)的能力。 2. Flum...

2018-03-20 20:51:13

阅读数 284

评论数 0

Scala编程快速入门系列(二)

目    录 一、Scala概述 二、Scala数据类型 三、Scala函数 四、Scala集合 五、Scala伴生对象 六、Scala trait 七、Actor 八、隐式转换与隐式参数 九、Scala JDBC 由于...

2018-03-17 14:01:22

阅读数 321

评论数 0

Scala编程快速入门系列(一)

目    录 一、Scala概述 二、Scala数据类型 三、Scala函数 四、Scala集合 五、Scala伴生对象 六、Scala trait 七、Actor 八、隐式转换与隐式参数 九、Scala JDBC 由于...

2018-03-16 07:07:55

阅读数 3702

评论数 1

快速掌握Shell编程

本文旨在使读者能快速掌握Shell编程的基本技术,从Shell编程的概述,变量,输出重定向进行了详细的讲解。并且介绍了Shell脚本的编写方法,条件判断、算术运算符、文件与字符串测试和循环语句等。

2018-03-12 13:52:58

阅读数 317

评论数 0

Apache Hive 基本理论与安装指南

一、Hive的基本理论   Hive是在HDFS之上的架构,Hive中含有其自身的组件,解释器、编译器、执行器、优化器。解释器用于对脚本进行解释,编译器是对高级语言代码进行编译,执行器是对java代码的执行,优化器是在执行过程中进行优化。这里的代码就是Hadoop中的MapReduce,这里的Ma...

2018-03-11 23:30:58

阅读数 273

评论数 0

awk使用方法与案例介绍

一、awk简介   awk是一个强大的文本分析工具,相对于grep的查找,sed的编辑,awk在其对数据分析并生成报告时,显得尤为强大。简单来说awk就是把文件逐行的读入,以空格为默认分隔符将每行切片,切开的部分再进行各种分析处理。   awk有3个不同版本:awk、nawk和gawk,未作特别说...

2018-03-11 23:27:10

阅读数 190

评论数 0

使用阿里云主机离线部署CDH步骤详解

一、Linux文件系统准备 1. 拍摄快照         登录阿里云控制台,拍摄快照,注意有几个关键点尽量拍摄快照,系统初始状态、CM环境准备完成、CM安装完成、CDH安装完成。 2. 挂载设...

2018-03-11 23:23:13

阅读数 223

评论数 0

yum源配置的三种方法

(一)yum源概述   yum需要一个yum库,也就是yum源。默认情况下,CentOS就有一个yum源。在/etc/yum.repos.d/目录下有一些默认的配置文件(可以将这些文件移到/opt下,或者直接在yum.repos.d/下重命名)。   首先要找一个yum库(源),然后确保本地有一个...

2018-03-11 22:46:08

阅读数 136

评论数 0

Linux下用户和组管理

  用户与组之间的关系是,组下面有若干个用户,每个用户必须从属于唯一一个组。组可以理解为权限的集合。用户管理的命令有:useradd, userdel, usermod, passwd, chsh, chfn, finger, id, chage。组管理的命令有:groupadd, groupde...

2018-03-11 22:32:28

阅读数 150

评论数 0

Hive 编程之DDL、DML、UDF、Select总结

  Hive的基本理论与安装可参看作者上一篇博文《Apache Hive 基本理论与安装指南》。 一、Hive命令行   所有的hive命令都可以通过hive命令行去执行,hive命令行中仍有许多选项。使用$hive -H查看:   -e 选项后面可以直接接一个hql语句,不用进入到hive命令...

2018-03-11 15:23:35

阅读数 575

评论数 0

提示
确定要删除当前文章?
取消 删除