大数据
文章平均质量分 92
Huidoo_Yang
这个作者很懒,什么都没留下…
展开
-
Scala编程快速入门系列(一)
目 录一、Scala概述二、Scala数据类型三、Scala函数四、Scala集合五、Scala伴生对象六、Scala trait七、Actor八、隐式转换与隐式参数九、Scala JDBC由于整理的篇幅较长,所以文章计划分三次发布。一、Scala概述1. Scala简介 Scala是一种针对JVM将函数和面向对象技术组合在一起的编程...原创 2018-03-16 07:07:55 · 4556 阅读 · 1 评论 -
Scala编程快速入门系列(二)
目 录一、Scala概述二、Scala数据类型三、Scala函数四、Scala集合五、Scala伴生对象六、Scala trait七、Actor八、隐式转换与隐式参数九、Scala JDBC由于整理的篇幅较长,所以文章计划分三次发布。第一部分的内容请转至系列(一)。四、Scala集合1. Scala集合概述 Scala对集合的操作就是...原创 2018-03-17 14:01:22 · 493 阅读 · 0 评论 -
Hive 编程之DDL、DML、UDF、Select总结
Hive的基本理论与安装可参看作者上一篇博文《Apache Hive 基本理论与安装指南》。一、Hive命令行 所有的hive命令都可以通过hive命令行去执行,hive命令行中仍有许多选项。使用$hive -H查看: -e 选项后面可以直接接一个hql语句,不用进入到hive命令行用户接口再输入hql语句。 -f 选项后面接一个hql语句的文件。 -i 选项在hql语句执...原创 2018-03-11 15:23:35 · 731 阅读 · 0 评论 -
使用阿里云主机离线部署CDH步骤详解
一、Linux文件系统准备1. 拍摄快照 登录阿里云控制台,拍摄快照,注意有几个关键点尽量拍摄快照,系统初始状态、CM环境准备完成、CM安装完成、CDH安装完成。2. 挂载设备 三个主机都执行。创建挂载目录$mkdir /data查看设备$df ...原创 2018-03-11 23:23:13 · 657 阅读 · 0 评论 -
Apache Hive 基本理论与安装指南
一、Hive的基本理论 Hive是在HDFS之上的架构,Hive中含有其自身的组件,解释器、编译器、执行器、优化器。解释器用于对脚本进行解释,编译器是对高级语言代码进行编译,执行器是对java代码的执行,优化器是在执行过程中进行优化。这里的代码就是Hadoop中的MapReduce,这里的MapReduce通过Hive往HDFS上执行、分析、查询数据。 上图展示hql的执行...原创 2018-03-11 23:30:58 · 377 阅读 · 0 评论 -
[ETL] Flume 理论与demo(Taildir Source & Hdfs Sink)
一、Flume简介1. Flume概述 Flume是Cloudera提供的一个高可用的,高可靠的,分布式的海量日志采集、聚合和传输的系统,Flume支持在日志系统中定制各类数据发送方,用于收集数据;同时,Flume提供对数据进行简单处理,并写到各种数据接受方(可定制)的能力。2. Flume系统功能日志收集 Flume最早是Cloudera提供的日志收集系统,目前是Apa...原创 2018-03-20 20:51:13 · 511 阅读 · 0 评论 -
RDD概念、特性、缓存策略与容错
一、RDD概念与特性1. RDD的概念 RDD(Resilient Distributed Dataset),是指弹性分布式数据集。数据集:Spark中的编程是基于RDD的,将原始数据加载到内存变成RDD,RDD再经过若干次转化,仍为RDD。分布式:读数据一般都是从分布式系统中去读,如hdfs、kafka等,所以原始文件存在磁盘是分布式的,spark加载完数据的RD...原创 2018-04-01 15:45:41 · 1007 阅读 · 0 评论