程裕强的专栏

大数据学习笔记(1.01^365=37.78,0.99^365=0.025)

Spark2.x学习笔记:3、 Spark核心概念RDD

Spark学习笔记:第3章 Spark核心概念RDD3.1 RDD概念弹性分布式数据集(Resilient Distributed Datasets,RDD) ,可以分三个层次来理解: 数据集:故名思议,RDD 是数据集合的抽象,是复杂物理介质上存在数据的一种逻辑视图。从外部来看,RDD 的确可以...

2017-08-30 16:01:59

阅读数 2086

评论数 0

Spark2.x学习笔记:2、Scala简单例子

Spark学习笔记2:Spark2.2伪分布式模式2.1 安装JDK8在前一节http://blog.csdn.net/chengyuqiang/article/details/77671748我们已经安装了JDK8,这里不再累述。2.2 安装Scala(1)获取下载地址 通过Spark官网下载...

2017-08-29 15:15:08

阅读数 2791

评论数 0

Spark2.x学习笔记:1、Spark2.2快速入门(本地模式)

Spark学习笔记1:Spark2.2快速入门1.1 Spark本地模式学习Spark,先易后难,先从最简单的本地模式学起。本地模式(local),常用于本地开发测试,解压缩Spark软件包就可以用,也就是所谓的“开封即用”1.2 安装JDK8(1)下载 登录Oracle官网http://www...

2017-08-29 10:28:15

阅读数 4902

评论数 1

Hadoop基础教程-第14章 大数据面试笔试题汇总(持续更新)

第14章 大数据面试笔试题汇总(持续更新) 注意:大部分题目来自互联网,部分题目来自同事口述 14.1 Zookeeper (1)Zookeeper是什么框架 分布式的、开源的分布式应用程序协调服务,原本是Hadoop、HBase的一个重要组件。它为分布式应用提供一致性服务的软...

2017-08-28 15:33:54

阅读数 3476

评论数 0

Hadoop基础教程-第13章 源码编译(13.4 Hive2.1.1源码编译)

第13章 源码编译与RPM打包13.4 Hive源码编译13.4.1 下载源码https://mirrors.tuna.tsinghua.edu.cn/apache/hive/单击stable-2下载源码apache-hive-2.1.1-src.tar.gz13.4.2 环境准备Hive2.1....

2017-08-28 15:11:44

阅读数 534

评论数 0

Hadoop基础教程-第13章 源码编译(13.3 HBase1.2.6源码编译)

第13章 源码编译与RPM打包13.3 HBase源码编译13.3.1 下载源码https://mirrors.tuna.tsinghua.edu.cn/apache/hbase/ 单击“stable”连接 下载源码hbase-1.2.6-src.tar.gz 13.3.2 解压缩[root@...

2017-08-28 15:07:43

阅读数 786

评论数 0

Hadoop基础教程-第13章 源码编译(13.2 Hadoop2.7.3源码编译)

第13章 源码编译与RPM打包13.2 Hadoop源码编译13.2.1下载Hadoop源码包(1)到官网http://hadoop.apache.org/releases.html下载2.7.3的source源码包(2)解压缩tar -zxvf hadoop-2.7.3-src.tar.gz -...

2017-08-28 14:46:24

阅读数 563

评论数 0

Hadoop基础教程-第13章 源码编译(13.1 Zookeeper源码编译)

第13章 源码编译13.1 Zookeeper源码编译13.1.1 安装Ant注意,不要下载最新版,下载指定版本 http://archive.apache.org/dist/ant/binaries/apache-ant-1.9.4-bin.tar.gz解压缩[root@hadron ~]# ...

2017-08-28 14:42:35

阅读数 499

评论数 0

Hadoop基础教程-第12章 Hive:进阶(12.5 Hive外表)(草稿)

第12章 Hive:进阶12.5 Hive外表12.5.1 准备数据[root@nb0 data]# vi gen.sh [root@nb0 data]# cat gen.sh #!/bin/shfor i in {1..100000};do echo -e $i'\t'$RAND...

2017-08-28 14:32:14

阅读数 636

评论数 0

Hadoop基础教程-第12章 Hive:进阶(12.4 Hive Metastore)(草稿)

第12章 Hive:进阶12.4 Hive Metastore12.4.1 三种配置方式Hive Metastore有三种配置方式,分别是:Embedded Metastore Database (Derby) 内嵌模式 Local Metastore Server 本地元存储 Remote ...

2017-08-27 10:51:27

阅读数 540

评论数 0

Hadoop基础教程-第12章 Hive:进阶(12.3 HiveServer2)(草稿)

第12章 Hive:进阶12.3 HiveServer212.3.1 HiveServer1HiveServer是一种可选服务,允许远程客户端可以使用各种编程语言向Hive提交请求并检索结果。HiveServer是建立在Apache ThriftTM(http://thrift.apache.or...

2017-08-26 22:37:38

阅读数 540

评论数 0

Hadoop基础教程-第12章 Hive:进阶(12.2 自定义函数)(草稿)

第12章 Hive:进阶12.2 自定义函数12.2.1 UDP<project xmlns="http://maven.apache.org/POM/4.0.0" xmlns:xsi="http://www.w3.org/2001/XMLSchema-inst...

2017-08-25 23:32:09

阅读数 470

评论数 0

Hadoop基础教程-第12章 Hive:进阶(12.1 内置函数)(草稿)

第12章 Hive:进阶12.1 内置函数为了方便测试Hive的内置函数,需要构造一个类似于Oracle的dual虚表hive> create table dual(value string); OK Time taken: 0.117 seconds hive>hive> in...

2017-08-20 21:33:32

阅读数 1076

评论数 0

Hadoop基础教程-第11章 Hive:SQL on Hadoop(11.8 HQL:排序)(草稿)

第11章 Hive:SQL on Hadoop11.8 HQL:排序11.8.1 order byHive 中的 order by与SQL 中的order by语义相同,会对查询结果进行全局排序,但是Hive 语句最终要转换为 MapReduce 程序放到 Hadoop 分布式集群上去执行,多个M...

2017-08-20 17:39:21

阅读数 604

评论数 0

Hadoop基础教程-第11章 Hive:SQL on Hadoop(11.7 HQL:数据查询)(草稿)

第11章 Hive:SQL on Hadoop11.7 HQL:数据查询11.7.1 limit 子句11.7.1 where 子句

2017-08-13 21:49:15

阅读数 658

评论数 0

Hadoop基础教程-第11章 Hive:SQL on Hadoop(11.6 HQL:DML数据操纵)(草稿)

第11章 Hive:SQL on Hadoop11.6 HQL:DML数据操纵11.6.1 装载数据

2017-08-12 22:40:10

阅读数 630

评论数 0

Hadoop基础教程-第11章 Hive:SQL on Hadoop(11.5 HQL:DDL数据定义)(草稿)

第11章 Hive:SQL on Hadoop11.5 HQL:DDL数据定义HQL中数据定义部分,也就是DDL,主要包括数据库定义和数据表的定义。

2017-08-12 16:11:32

阅读数 757

评论数 0

Hadoop基础教程-第11章 Hive:SQL on Hadoop(11.4 数据类型和存储格式)(草稿)

第11章 Hive:SQL on Hadoop11.4 Hive 数据类型和存储格式11.4.1 数据类型(1)基本类型 Hive 支持关系型数据中大多数基本数据类型, 类型 描述 示例 BOOLEAN true/false TRUE TINYINT 1字节的有符号...

2017-08-07 09:49:01

阅读数 650

评论数 0

Hadoop基础教程-第11章 Hive:SQL on Hadoop(11.3 Hive 快速入门)

第11章 Hive:SQL on Hadoop11.3 Hive数据类型与应用11.3.1 基本数据类型Hive 支持关系型数据中大多数基本数据类型, 类型 描述 示例 BOOLEAN true/false TRUE TINYINT 1字节的有符号整数 -128~...

2017-08-06 21:15:24

阅读数 1466

评论数 0

Hadoop基础教程-第11章 Hive:SQL on Hadoop(11.2 Hive安装与配置)(草稿)

第11章 Hive:SQL on Hadoop11.2 Hive安装与配置11.2.1 安装元数据库Hive的元数据和数据是分开存放的,数据存放在HDFS上,而元数据库默认是存储在Hive自带的Derby数据库。由于Derby只支持同时一个用户访问Hive,所以我们将换成MySQL/MariaDB...

2017-08-06 10:49:04

阅读数 1310

评论数 0

提示
确定要删除当前文章?
取消 删除
关闭
关闭