程裕强-CSDN博客

原创 Spark2.x学习笔记：8、 Spark应用程打包与提交

第8章 Spark应用程打包与提交8.1 应用程序打包（1）Maven打包进入Maven项目根目录（比如前一章创建的simpleSpark项目，进入simpleSpark项目根目录可以看到1个pom.xml文件），执行mvn package命令进行自动化打包。 Maven根据pom文件里packaging的配置，决定是生成jar文件还是war文件，并放到target目录下。这时Mave

2017-09-16 22:32:36 3033

原创 CentOS 7.x 安装Sublime Text 3.0正式版

CentOS 7.x 安装Sublime Text 3.0正式版Sublime Text 3.0 正式版终于发布了！废话不多说，直接敲命令安装！1、安装 GPG 公钥rpm -v –import https://download.sublimetext.com/sublimehq-rpm-pub.gpg[root@hadron ~]# rpm -v --import https://downlo

2017-09-15 15:24:34 7966 2

原创 Spark2.x学习笔记：7、Spark应用程序设计

第7章 Spark应用程序设计7.1 基本流程1.创建SparkContext对象每个Spark应用程序有且仅有一个SparkContext对象，封装了Spark执行环境信息2.创建RDD可以冲Scala集合或者Hadoop数据集上创建3.在RDD之上进行转换和ActionMapReduce只提供了map和reduce两种操作，而Spark提供了多种转换和action函数4.返回结果保存到H

2017-09-12 15:06:21 1520

原创 Spark2.x学习笔记：6、在Windows平台下搭建Spark开发环境（Intellij IDEA）

第6章在Windows平台下搭建Spark开发环境（Intellij IDEA+Maven）6.1 集成开发环境IDE为了方便应用程序开发与测试，提高开发效率，一般使用集成开发工具IDE。同样，为了方便Spark应用程序编写和测试，可以选择集成开发工具Intellij IDEA或Eclipse。由于Intellij IDEA对Scala更好的支持，大多Spark开发团队选择了Intellij ID

2017-09-10 21:15:45 9982 6

原创 Spark2.x学习笔记：5、Spark On YARN模式

Spark学习笔记：5、Spark On YARN模式有些关于Spark on YARN部署的博客，实际上介绍的是Spark的 standalone运行模式。如果启动Spark的master和worker服务，这是Spark的 standalone运行模式，不是Spark on YARN运行模式，请不要混淆。Spark在生产环境中，主要部署在Hadoop集群中，以Spark On YA...

2017-09-06 11:21:11 22697 4

原创 Spark2.x学习笔记：4、Spark程序架构与运行模式

第4章 Spark程序架构与运行模式4.1 Spark程序最简架构所有的Spark程序运行时，主要由两大类组件Driver和Excutor构成。每个Spark程序运行时都有一个Driver，Driver是进程包含了运行所需要的CPU和内存等资源，Driver是我们应用程序main函数所在进程。比如当我们运行一个spark-shell时，就创建了一个driver 程序。Executor可以有多个

2017-09-05 22:29:00 2120

原创 Spark2.x学习笔记：3、 Spark核心概念RDD

Spark学习笔记：第3章 Spark核心概念RDD3.1 RDD概念弹性分布式数据集(Resilient Distributed Datasets,RDD) ，可以分三个层次来理解：数据集：故名思议，RDD 是数据集合的抽象，是复杂物理介质上存在数据的一种逻辑视图。从外部来看，RDD 的确可以被看待成经过封装，带扩展特性（如容错性）的数据集合。分布式：RDD的数据可能在物理上存储在多个节点的磁

2017-08-30 16:01:59 3139

原创 Spark2.x学习笔记：2、Scala简单例子

Spark学习笔记2：Spark2.2伪分布式模式2.1 安装JDK8在前一节http://blog.csdn.net/chengyuqiang/article/details/77671748我们已经安装了JDK8，这里不再累述。2.2 安装Scala（1）获取下载地址通过Spark官网下载页面http://spark.apache.org/downloads.html 可知“Note: S

2017-08-29 15:15:08 4084

原创 Spark2.x学习笔记：1、Spark2.2快速入门（本地模式）

Spark学习笔记1：Spark2.2快速入门1.1 Spark本地模式学习Spark，先易后难，先从最简单的本地模式学起。本地模式（local），常用于本地开发测试，解压缩Spark软件包就可以用，也就是所谓的“开封即用”1.2 安装JDK8（1）下载登录Oracle官网http://www.oracle.com/technetwork/java/javase/downloads/jdk8-d

2017-08-29 10:28:15 7373

原创 Hadoop基础教程-第14章大数据面试笔试题汇总（持续更新）

第14章大数据面试笔试题汇总（持续更新）注意：大部分题目来自互联网，部分题目来自同事口述 14.1 Zookeeper（1）Zookeeper是什么框架分布式的、开源的分布式应用程序协调服务，原本是Hadoop、HBase的一个重要组件。它为分布式应用提供一致性服务的软件，包括：配置维护、域名服务、分布式同步、组服务等（2）说说你对zookeeper的理解 Z

2017-08-28 15:33:54 6021

原创 Hadoop基础教程-第13章源码编译（13.4 Hive2.1.1源码编译）

第13章源码编译与RPM打包13.4 Hive源码编译13.4.1 下载源码https://mirrors.tuna.tsinghua.edu.cn/apache/hive/单击stable-2下载源码apache-hive-2.1.1-src.tar.gz13.4.2 环境准备Hive2.1.1的源码包需要JDK1.8。如果使用JDK1.7编译是总是产生各种奇怪的问题，GC overhead l

2017-08-28 15:11:44 816

原创 Hadoop基础教程-第13章源码编译（13.3 HBase1.2.6源码编译）

第13章源码编译与RPM打包13.3 HBase源码编译13.3.1 下载源码https://mirrors.tuna.tsinghua.edu.cn/apache/hbase/ 单击“stable”连接下载源码hbase-1.2.6-src.tar.gz 13.3.2 解压缩[root@cyq opt]# tar -zxvf hbase-1.2.6-src.tar.g[root@cyq

2017-08-28 15:07:43 1211

原创 Hadoop基础教程-第13章源码编译（13.2 Hadoop2.7.3源码编译）

第13章源码编译与RPM打包13.2 Hadoop源码编译13.2.1下载Hadoop源码包（1）到官网http://hadoop.apache.org/releases.html下载2.7.3的source源码包（2）解压缩tar -zxvf hadoop-2.7.3-src.tar.gz -C /opt(3)打开解压目录下的BUILDING.txt,编译过程和需要的软件其实就是根据这个文档里的

2017-08-28 14:46:24 1053

原创 Hadoop基础教程-第13章源码编译（13.1 Zookeeper源码编译）

第13章源码编译13.1 Zookeeper源码编译13.1.1 安装Ant注意，不要下载最新版，下载指定版本 http://archive.apache.org/dist/ant/binaries/apache-ant-1.9.4-bin.tar.gz解压缩[root@hadron ~]# cd apache-ant-1.9.4/[root@hadron apache-ant-1.9.4]#

2017-08-28 14:42:35 726

原创 Hadoop基础教程-第12章 Hive：进阶（12.5 Hive外表）（草稿）

第12章 Hive：进阶12.5 Hive外表12.5.1 准备数据[root@nb0 data]# vi gen.sh[root@nb0 data]# cat gen.sh#!/bin/shfor i in {1..100000};do echo -e $i'\t'$RANDOM'\t'$RANDOM'\t'$RANDOMdone;[root@nb0 data]# sh g

2017-08-28 14:32:14 889

原创 Hadoop基础教程-第12章 Hive：进阶（12.4 Hive Metastore）（草稿）

第12章 Hive：进阶12.4 Hive Metastore12.4.1 三种配置方式Hive Metastore有三种配置方式，分别是：Embedded Metastore Database (Derby) 内嵌模式 Local Metastore Server 本地元存储 Remote Metastore Server 远程元存储12.4.2 Metastore作用metadata即元数据

2017-08-27 10:51:27 892

原创 Hadoop基础教程-第12章 Hive：进阶（12.3 HiveServer2）（草稿）

第12章 Hive：进阶12.3 HiveServer212.3.1 HiveServer1HiveServer是一种可选服务，允许远程客户端可以使用各种编程语言向Hive提交请求并检索结果。HiveServer是建立在Apache ThriftTM（http://thrift.apache.org/）之上的，因此有时会被称为Thrift Server，这可能会导致混乱，因为新服务HiveServ

2017-08-26 22:37:38 873

原创 Hadoop基础教程-第12章 Hive：进阶（12.2 自定义函数）（草稿）

第12章 Hive：进阶12.2 自定义函数12.2.1 UDP<project xmlns="http://maven.apache.org/POM/4.0.0" xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance" xsi:schemaLocation="http://maven.apache.org/POM/4.0.0 http:/

2017-08-25 23:32:09 733

原创 Hadoop基础教程-第12章 Hive：进阶（12.1 内置函数）（草稿）

第12章 Hive：进阶12.1 内置函数为了方便测试Hive的内置函数，需要构造一个类似于Oracle的dual虚表hive> create table dual(value string);OKTime taken: 0.117 secondshive>hive> insert into dual values("test");WARNING: Hive-on-MR is depreca

2017-08-20 21:33:32 1562

原创 Hadoop基础教程-第11章 Hive：SQL on Hadoop（11.8 HQL：排序）（草稿）

第11章 Hive：SQL on Hadoop11.8 HQL：排序11.8.1 order byHive 中的 order by与SQL 中的order by语义相同，会对查询结果进行全局排序，但是Hive 语句最终要转换为 MapReduce 程序放到 Hadoop 分布式集群上去执行，多个Mapper 后汇集到一个 Reducer 上执行，如果结果数据量大，那就会造成 Reduce 执行相当漫

2017-08-20 17:39:21 850

原创 Hadoop基础教程-第11章 Hive：SQL on Hadoop（11.7 HQL：数据查询）（草稿）

第11章 Hive：SQL on Hadoop11.7 HQL：数据查询11.7.1 limit 子句11.7.1 where 子句

2017-08-13 21:49:15 1085

原创 Hadoop基础教程-第11章 Hive：SQL on Hadoop（11.6 HQL：DML数据操纵）（草稿）

第11章 Hive：SQL on Hadoop11.6 HQL：DML数据操纵11.6.1 装载数据

2017-08-12 22:40:10 924

原创 Hadoop基础教程-第11章 Hive：SQL on Hadoop（11.5 HQL：DDL数据定义）（草稿）

第11章 Hive：SQL on Hadoop11.5 HQL：DDL数据定义HQL中数据定义部分，也就是DDL，主要包括数据库定义和数据表的定义。

2017-08-12 16:11:32 1085

原创 Hadoop基础教程-第11章 Hive：SQL on Hadoop（11.4 数据类型和存储格式）（草稿）

第11章 Hive：SQL on Hadoop11.4 Hive 数据类型和存储格式11.4.1 数据类型（1）基本类型 Hive 支持关系型数据中大多数基本数据类型，类型描述示例 BOOLEAN true/false TRUE TINYINT 1字节的有符号整数 -128~127 1Y SMALLINT 2个字节的有符号整数，-32768~3

2017-08-07 09:49:01 1161

原创 Hadoop基础教程-第11章 Hive：SQL on Hadoop（11.3 Hive 快速入门）

第11章 Hive：SQL on Hadoop11.3 Hive数据类型与应用11.3.1 基本数据类型Hive 支持关系型数据中大多数基本数据类型，类型描述示例 BOOLEAN true/false TRUE TINYINT 1字节的有符号整数 -128~127 1Y SMALLINT 2个字节的有符号整数，-32768~32767 1S

2017-08-06 21:15:24 1874

原创 Hadoop基础教程-第11章 Hive：SQL on Hadoop（11.2 Hive安装与配置）（草稿）

第11章 Hive：SQL on Hadoop11.2 Hive安装与配置11.2.1 安装元数据库Hive的元数据和数据是分开存放的，数据存放在HDFS上，而元数据库默认是存储在Hive自带的Derby数据库。由于Derby只支持同时一个用户访问Hive，所以我们将换成MySQL/MariaDB作为Hive元数据库。（1）安装数据库 CentOS 6.x系统可以安装MySQL，CentOS 7.

2017-08-06 10:49:04 1715

原创 Hadoop基础教程-第11章 Hive：SQL on Hadoop（11.1 Hive 介绍）（草稿）

第11章 Hive：SQL on Hadoop11.1 Hive 介绍11.1.1 认识HiveHive是基于Hadoop的一个数据仓库工具，可以将结构化的数据文件映射为一张数据库表，并提供简单的sql查询功能，可以将sql语句转换为MapReduce任务进行运行。其优点是学习成本低，可以通过类SQL语句快速实现简单的MapReduce统计，不必开发专门的MapReduce应用，十分适合数据仓库的

2017-08-05 18:08:16 1043

原创 Hadoop基础教程-第10章 HBase：Hadoop数据库（10.7 HBase 批量导入）

第10章 HBase：Hadoop数据库10.7 HBase 批量上传10.7.1 ImportTsv（1）介绍ImportTsv是HBase官方提供了基于mapreduce进行批量数据导入的工具，ImportTsv可以将HDFS上的TSV格式（默认制表符分隔\t，或者自定义分隔符的其他格式数据文件也可，逗号‘,’分隔的txt亲测可以）的数据文件通过命令简单方便地导入到HBase中，对于大数据量的导

2017-08-05 17:32:04 1384

原创 Hadoop基础教程-第10章 HBase：Hadoop数据库（10.6 HBase API）

第10章 HBase：Hadoop数据库10.6 HBase API10.6.1 HBase API介绍前面我们已经学习了通过HBase Shell命令来操作HBase，本质上是通过Java API进行操作的。所以Java API操作HBase是最直接、最原生的方式。10.6.2 Windows+Eclipse+Maven+HBase（1）编辑Windows系统的hosts文件C:\Windows\

2017-07-29 21:44:07 1186

原创 Hadoop基础教程-第10章 HBase：Hadoop数据库（10.5 HBase Shell）（草稿）

第10章 HBase：Hadoop数据库10.5 HBase Shell10.5.1http://hbase.apache.org/book.html#quickstartProcedure: Use HBase For the First Time Connect to HBase进入HBase Shell[root@node1 ~]# hbase shell2017-03-18 17:45:

2017-07-25 23:38:22 1750

原创 Hadoop基础教程-第10章 HBase：Hadoop数据库（10.4 NTP时间同步）（草稿）

第10章 HBase：Hadoop数据库10.4 时间同步10.4.1 为什么需要时间同步10.4.1 ntp服务端（1）安装ntp[root@node1 ~]# yum install -y ntp.....Installing: ntp x86_64

2017-07-25 22:42:42 935

原创 Hadoop基础教程-第10章 HBase：Hadoop数据库（10.3 HBase安装与配置）（草稿）

第10章 HBase：Hadoop数据库10.3 HBase安装与配置10.3.1 HBase下载HBase官方网址：http://hbase.apache.org/ 下载推荐的当前稳定版1.2.610.3.2 HBase安装（1）上传软件包。通过XShell将HBase软件包上传到集群中的一个节点，比如node1 （2）解压缩软件包[root@node1 ~]# tar -zxvf hba

2017-07-23 16:46:58 1184

原创 Hadoop基础教程-第10章 HBase：Hadoop数据库（10.2 HBase基本概念、框架）（草稿）

第10章 HBase：Hadoop数据库10.2 HBase基本概念、框架本节内容，大多是从网络上汇总而来，并做了一定总结修改。10.2.1 HBase的特点大：一个表可以有上亿行，上百万列。面向列：面向列表（簇）的存储和权限控制，列（簇）独立检索。稀疏：对于为空（NULL）的列，并不占用存储空间，因此，表可以设计的非常稀疏。（对于关系数据库，空值位置必须存储NU

2017-07-23 16:06:50 1589

原创 Hadoop基础教程-第10章 HBase：Hadoop数据库（10.1 NoSQL介绍）（草稿）

第10章 HBase：Hadoop数据库10.1 NoSQL介绍10.1.1 NoSQL简介随着互联网技术（互联网+，物联网）发展，特别是大数据时代到来，我们需要存储处理更多数据，这种需求远远超出传统关系型数据库的存储和处理能力。为了应对这种情形，我们需要不停的扩展。扩展分为两类：一种是纵向扩展，即购买更好的机器，更多的磁盘、更多的内存等等；另一种是横向扩展，即购买更多的机器组成集群。在巨大的规

2017-07-22 22:43:36 1622

原创 Hadoop基础教程-第9章 HA高可用（9.4 YARN 高可用）（草稿）

第9章 HA高可用9.4 YARN 高可用9.4.1 RM单点故障http://hadoop.apache.org/docs/r2.7.3/hadoop-yarn/hadoop-yarn-site/ResourceManagerHA.html ResourceManager（RM）负责跟踪群集中的资源，并调度应用程序（例如MapReduce作业）。在Hadoop 2.4之...

2017-07-22 22:12:45 2292

原创 Hadoop基础教程-第9章 HA高可用（9.3 HDFS 高可用运行）（草稿）

第9章 HA高可用9.3 HDFS 高可用运行9.3.1 HA节点规划节点 IP Zookeeper NameNode JournalNode DataNode node1 192.168.80.131 Y Y Y Y node2 192.168.80.132 Y Y Y Y node3 192.168.80.133

2017-07-12 22:21:00 1704 2

原创 Hadoop基础教程-第9章 HA高可用（9.2 HDFS 高可用配置）（草稿）

第9章 HA高可用9.2 HDFS 高可用配置9.2.1 准备工作因为前面我们已经配置启动了普通的Hadoop相关服务，需要先停止相关服务并清除数据。（1）停止Hadoop服务首先停止YARN[root@node1 ~]# stop-yarn.shstopping yarn daemonsstopping resourcemanagernode2: s...

2017-07-08 21:03:30 1282 1

原创 Hadoop基础教程-第9章 HA高可用（9.1 HDFS 高可用介绍）（草稿）

第9章 HA高可用9.1 HDFS 高可用介绍HDFS HA(High Availability)高可用配置官方参考网址 http://hadoop.apache.org/docs/r2.7.3/hadoop-project-dist/hadoop-hdfs/HDFSHighAvailabilityWithQJM.html9.1.1 背景Prior to Hadoop

2017-07-08 17:27:32 1067

原创 Hadoop基础教程-第8章 Zookeeper（8.5 Zookeeper内存数据库）（草稿）

第8章 Zookeeper8.5 Zookeeper内存数据库8.5.2 内存数据库介绍ZooKeeper的数据模型是一棵树，而从使用角度看， Zookeeper就像一个内存数据库一样。在这个内存数据库中，存储了整棵树的内容，包括所有的节点路径、节点数据及其ACL信息等，Zookeeper会定时将这个数据存储到磁盘上。 Zookeeper内存数据库是通过ZKDatabase类实现，内部属性包括

2017-07-08 15:57:48 1073

原创 Hadoop基础教程-第8章 Zookeeper（8.4 Zookeeper集群模式）（草稿）

第8章 Zookeeper单机模式的ZooKeeper便于评估，开发和测试。但在生产中，我们应该以集群模式运行ZooKeeper。8.4 Zookeeper集群模式8.4.1 集群模式介绍一个 ZooKeeper 集群通常由一组机器组成，一般 3 台以上就可以组成一个可用的 ZooKeeper 集群了。组成 ZooKeeper 集群的每台机器都会在内存中维护当前的服务器状态，并且每台机器之间都会

2017-07-06 22:24:59 1004