自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

原创 HBase基本介绍

1HBase基本介绍、 简介 hbase是bigtable的开源java版本。是建立在hdfs之上,提供高可靠性、高性能、列存储、可伸缩、实时读写nosql的数据库系统。 它介于nosql和RDBMS之间,仅能通过主键(row key)和主键的range来检索数据,仅支持单行事务(可通过hive支...

2019-12-10 18:12:57

阅读数 247

评论数 0

原创 关于hue安装后出现KeyError: "Couldn't get user id for user hue"的解决方法

首先说明出现此问题的原因是因为你使用的root用户安装了hue,然后在root用户下使用的build/env/bin/supervisor,如下图所示那样: 知道了原因,就容易解决问题了。首先要创建个普通用户,并给添加密码。如果密码给的过于简单,会给出提示,忽略就行,如下图: 然后,我们要给刚...

2019-12-10 17:59:44

阅读数 232

评论数 0

原创 安装mysql-devel报致命错误:my_config.h:没有那个文件或目录

安装mysql-python报致命错误:my_config.h:没有那个文件或目录 解决方法:执行下述命令 yum install mysql-devel yum install gcc libffi-devel python-devel openssl-devel

2019-12-10 17:56:07

阅读数 232

评论数 0

原创 查询所有选修“计算机导论”课程的“男”同学的成绩表

SQL练习 MySQL语句练习(students,courses,scores,teachers ) 准备数据 建表语句 CREATE TABLE students (sno VARCHAR(3) NOT NULL, sname VARCHAR(4) NOT NULL, ssex VARCHAR...

2019-12-10 17:38:29

阅读数 185

评论数 0

原创 ZooKeeper安装部署和客户端连接

安装zookeeper的注意事项: 安装前需要安装好jdk 检测集群时间是否同步 检测防火墙是否关闭 检测主机 ip映射有没有配置 ##下载安装包、解压 下载地址: CDH版本:http://archive.cloudera.com/cdh5/cdh/5/zookeeper-3.4.5-cdh5....

2019-12-10 17:17:33

阅读数 29

评论数 0

原创 Apache ZooKeeper

1、Zookeeper基本知识 1.1、ZooKeeper集群搭建 Zookeeper集群搭建指的是ZooKeeper分布式模式安装。通常由2n+1台servers组成。这是因为为了保证Leader选举(基于Paxos算法的实现)能过得到多数的支持,所以ZooKeeper集群的数量一般为奇数。 Z...

2019-12-10 16:23:51

阅读数 293

评论数 0

原创 Apache Impala安装部署

Apache Impala安装部署 1.安装前提 集群提前安装好hadoop,hive。 hive安装包scp在所有需要安装impala的节点上,因为impala需要引用hive的依赖包。 hadoop框架需要支持C程序访问接口,查看下图,如果有该路径下有这么文件,就证明支持C接口。 2.下载安...

2019-12-10 08:10:11

阅读数 598

评论数 0

原创 Apache Impala

二、Apache Impala 1.Impala基本介绍 impala是cloudera提供的一款高效率的sql查询工具,提供实时的查询效果,官方测试性能比hive快10到100倍,其sql查询比sparkSQL还要更加快速,号称是当前大数据领域最快的查询sql工具, impala是参照谷歌的新三...

2019-12-09 22:25:24

阅读数 578

评论数 0

原创 Apache Hue

Apache Hue 一、Apache Hue介绍 1.Hue是什么 Hue是一个开源的Apache Hadoop UI系统,由Cloudera Desktop演化而来,最后Cloudera公司将其贡献给Apache基金会的Hadoop社区,它是基于Python Web框架Django实现的。 通...

2019-12-09 22:11:21

阅读数 601

评论数 0

原创 linux知识点选择题

linux知识点选择题 1. 制作本地yum源,本地仓库源的文件写在哪个目录()A A、/etc/yum.repos.d/ B、/usr/dev C、/mnt/cdrom D、/etc/sysconfig/network-scripts/ 2.linux系统中,退出当前用户的命令是 () A ...

2019-12-09 20:36:34

阅读数 1143

评论数 0

原创 Azkaban工作流调度

二、工作流 1.工作流产生背景 工作流(Workflow),指“业务过程的部分或整体在计算机应用环境下的自动化”。 工作流解决的主要问题是:为了实现某个业务目标,利用计算机软件在多个参与者之间按某种预定规则自动传递文档、信息或者任务。 一个完整的数据分析系统通常都是由多个前后依赖的模块组合构成的:...

2019-12-09 17:52:04

阅读数 1030

评论数 0

原创 Apache Flume(概述->Flume安装部署->Flume简单案例)

1.概述 Flume是Cloudera提供的一个高可用的,高可靠的,分布式的海量日志采集、聚合和传输的软件。 Flume的核心是把数据从数据源(source)收集过来,再将收集到的数据送到指定的目的地(sink)。为了保证输送的过程一定成功,在送到目的地(sink)之前,会先缓存数据(channe...

2019-12-05 11:51:15

阅读数 1132

评论数 0

原创 Apache Sqoop的基本->介绍->安装->导入->导出

1.sqoop介绍 Apache Sqoop是在Hadoop生态体系和RDBMS体系之间传送数据的一种工具。 来自于Apache软件基金会提供。 Sqoop工作机制是将导入或导出命令翻译成mapreduce程序来实现。在翻译出的mapreduce中主要是对inputformat和outputfor...

2019-12-05 09:03:24

阅读数 1700

评论数 0

原创 hive的面试题

1、什么是Hive Hive是一个语句Hadoop的一个数据仓库工具,是将结构化数据文件映射成为一个数据表,并提供类SQL的查询功能。 2、Hive的意义(最初研发的原因) 在hadoop是个好软件,但是不好使用(学习成本太高,坡度陡,难度大)的前提下降低了程序员使用hadoop的学习成本,降低了...

2019-11-28 19:57:22

阅读数 2047

评论数 1

原创 hive链接JetBrains DataGrip 2019.2.6 x64

1.先下载JetBrains DataGrip 2019.2.6 x64软件包 2.步骤实列操作如下:(写的不好误怪) 2. 3. 4.

2019-11-27 20:31:12

阅读数 1382

评论数 1

原创 hive操作Mysql知识点

mysql数据库的安装(使用yum源进行安装,强烈推荐) 第一步:在线安装mysql相关的软件包 yum install mysql mysql-server mysql-devel 第二步:启动mysql的服务 /etc/init.d/mysqld start chkconfig mys...

2019-11-27 20:14:02

阅读数 1024

评论数 0

原创 使用HIVE的方式

第一种交互方式:Hive交互shell 1、安装Hive后配置系统环境变量的前提下,在节点的任意位置直接数据如Hive+ 回车 hive (default)> ​ 查看所有的数据库 创建一个数据库 使用该数据库并创建数据库表 以上命令操作完成之...

2019-11-21 11:52:21

阅读数 1212

评论数 1

原创 HIVE的安装部署,使用mysql共享hive元数据

HIVE的安装部署 我们在此处选择第三台机器作为我们hive的安装机器 1 安装 1.1、derby版hive直接使用: 1、 derby版hive == 默认使用derby(数据库)维护元数据 此版本,每个节点自己独立维护一个derby数据库,所以在节点1添加了数据库,在节点2 无法查看 ...

2019-11-21 08:26:07

阅读数 1250

评论数 0

原创 Hive基本概念

1、Hive简介 什么是Hive Hive是一个语句Hadoop的一个数据仓库工具,是将结构化数据文件映射成为一个数据表,并提供类SQL的查询功能。 为什么使用Hive ​ 在hadoop是个好软件,但是不好使用(学习成本太高,坡度陡,难度大)的前提下 降低了程序员使用hadoop的学习成...

2019-11-19 22:22:06

阅读数 1446

评论数 0

原创 MapReduce:Map端Join算法实现

map端join算法实现 1、原理阐述 适用于关联表中有小表的情形; 可以将小表分发到所有的map节点,这样,map节点就可以在本地对自己所读到的大表数据进行join并输出最终结果,可以大大提高join操作的并发度,加快处理速度 2、实现示例 –先在mapper类中预先定义好小表,进行join...

2019-11-19 11:28:46

阅读数 2456

评论数 0

提示
确定要删除当前文章?
取消 删除