Nekou_-CSDN博客

原创 Hue简单概述 & CDH5.14.0部署安装

概述Hue是一个开源的Apache Hadoop UI系统，由Cloudera Desktop演化而来，最后Cloudera公司将其贡献给Apache基金会的Hadoop社区，它是基于Python Web框架Django实现的。通过使用Hue我们可以在浏览器端的Web控制台上与Hadoop集群进行交互来分析处理数据，例如操作HDFS上的数据，运行MapReduce Job，执行Hive的SQL...

2019-07-10 14:21:02 1148

原创解决hive以及impala执行权限不足的问题

在我们hive当中执行任意的查询，只要是需要跑MR的程序，就会报错，发现权限不够的异常INFO : Compiling command(queryId=root_20180625191616_d02efd23-2322-4f3d-9cb3-fc3a06ff4ce0): select count(1) from mystuINFO : Semantic Analysis Completed...

2019-07-10 13:02:42 2432

原创 Impala CDH5.14.0安装部署

因为impala没有提供tar包供我们进行安装，只提供了rpm包，所以我们在安装impala的时候，需要使用rpm包来进行安装，rpm包只有cloudera公司提供了，所以我们去cloudera公司网站进行下载rpm包即可，但是另外一个问题，impala的rpm包依赖非常多的其他的rpm包，可以一个个的将依赖找出来，也可以将所有的rpm包下载下来，制作成我们本地yum源来进行安装。我们这里就选择制...

2019-07-10 10:06:36 1313 2

原创 Impala架构概述

Imala是基于Hive并使用内存进行计算，兼顾数据仓库，具有实时，批处理，多并发等优点。因为

2019-07-10 09:30:17 395

原创 Azkaban3.51.0 双服务模式安装

所需安装包：azkaban-web-server-0.1.0-SNAPSHOT.tar.gzazkaban-exec-server-0.1.0-SNAPSHOT.tar.gzcreate-all-sql-0.1.0-SNAPSHOT.sqlexecute-as-user.c以上安装包下载链接：https://pan.baidu.com/s/1gXsQGSuJx1r1SxzboKM1QQ...

2019-07-05 18:53:08 390

原创 Azkaban概述 & Azkaban3.51.0编译

Azkaban概述Azkaban是由Linkedin开源的一个批量工作流任务调度器。用于在一个工作流内以一个特定的顺序运行一组工作和流程。Azkaban定义了一种KV文件(properties)格式来建立任务之间的依赖关系，并提供一个易于使用的web用户界面维护和跟踪你的工作流。Azkaban与Oozie 对比# 下载wget https://github.com/azkaban/a...

2019-07-05 16:35:32 386

原创 Hive beeline方式连接Could not open connection to the HS2 server。

首先，这其实是一个悲伤的故事。中午装了一个三台测试机，一顿操作猛如喵之后，终于轮到hive的安装配置了。在淡定的解压完，配置文件都配置完，启动了hiveserver2之后，就在我颤抖的小手在键盘上输入bin/beelinebeeline> !connect jdbc:hive2://node03.hadoop.com:10000哦豁Could not open connecti...

2019-06-26 18:42:17 19576 17

原创 MySQL yum安装时报Transaction Check Error解决方案

主要是软件冲突造成的，假设如果之前没有卸载干净也可能会造成此类情况。解决方案:1、先清除残留的mysql文件夹find / -name mysql把查询到的删除即可2、既然是软件冲突那再卸载一遍yum -y remove MySQL-client-5.6.17-1.el6.x86_64yum -y remove MySQL-devel-5.6.17-1.el6.x86_64...

2019-06-26 11:05:38 3348

原创 WIN下IDEA操作Hadoop winutils报错解决方案

在Windows下IDEA操作Hadoop报如上错误。Hadoop2.6.0-CDH5.14.0安装包:链接: https://pan.baidu.com/s/1sgz4lnaqp3W8-mnS_MmRZw 提取码: wm7fhadoop.dll文件：链接: https://pan.baidu.com/s/1GvJgZq0dLQQShWNUCeV9hg 提取码: wgh9解决方法：S...

2019-06-26 10:28:29 987

原创 Zookeeper 概述 & 架构 & 特性

目录1.概述2.架构3.特性概述ZK作为一个分布式协调服务的框架。主要是为了解决分布式集群中应用系统的一致性问题，例如怎么避免多用户同时对数据操作从而造成脏写脏读。本质上来说是一个分布式的小文件存储系统（官方建议这里的小文件每个不要超过1MB）。提供基于类似于文件系统的目录树方式的数据存储，并且可以对节点进行有效的管理。维护和监控你存储数据的状态，从而达到基于数据的集群管理。架构...

2019-06-05 16:25:34 153

原创 HDFS基本架构总结

目录HDFS架构Namenode&amp;amp;DataNode&amp;amp;SecondaryNameNode副本存放策略HDFS为主/从架构，主要由管理文件系统的NameNode和存储数据的DataNode组成。NameNode介绍及作用 :NameNode维护以下内容a. 管理文件名称b. 管理文件目录结构c. 管理文件属性（创建时间、权限、副本数等）d. 文件对应哪...

2019-04-18 19:56:48 1188

原创 HDFS读流程

HDFS读流程客户端通过分布式FileSystem.open(path)方法，与NameNode之间进行RPC通信，其中open方法会将一个path传递过去，这个path就是我们要查看的文件或文件夹的路径.NameNode会对这个path进行校验，判断是否存在这个路径，以及是否拥有相应的权限去读取。校验完后返回一个FSDataInputStream对象，当要读取client需再次向N...

2019-04-18 19:56:41 169

原创 SparkCore - RDD & 常用算子

RDD概述RDD是弹性分布式数据集，是Spark的基石，是Spark最基本的数据抽象，它代表一个不可变、只读的、被分区的数据集。RDD的五大特性A list of partitions 当RDD存储着一系列的数据时，会构建多个partition来存储这些数据，不同的partition会在不同的地址，并且，在Spark中一个数据集有多少个partition就会有多少个taskA...

2019-04-18 19:56:33 169

原创数据仓库简单概述

数据仓库概述入门数据仓库（Data Warehouse），简写为DW或者DWH。为了企业有更好的分析性报告及决策支持而建立。数据仓库的特点数据仓库的数据是面向对象的数据仓库的数据是集成的数据仓库的数据是不可更新的数据仓库的数据是随时间不断变化的OLTP & OLAP对比OLTP（联机事务处理），也可以称为面向交易的处理系统，主要针对具体业务在数据库联机的日常操作，通常...

2019-04-18 19:56:26 542

原创 Spark - 广播变量 & 累加器

广播变量 broadcast variable1、广播变量的意义如果我们要在分布式计算里面分发大对象，例如：字典，集合，黑白名单等，这个都会由Driver端进行分发，一般来讲，如果这个变量不是广播变量，那么每个task就会分发一份，这在task数目十分多的情况下Driver的带宽会成为系统的瓶颈，而且会大量消耗task服务器上的资源，如果将这个变量声明为广播变量，那么只是每个executor拥...

2019-04-18 19:56:19 205

原创 Spark - 宽依赖 & 窄依赖

宽依赖：指一个父RDD的Partition会被多个子RDD的Partition所使用，例如,groudByKey,ReduceByKey,sortByKey等操作都会产生宽依赖。窄依赖：指每个父RDD的一个Partition最多被子RDD的一个Partition所使用，例如，Map，filter，union等操作都会产生窄依赖。需要注意的是，如果两个RDD在进行join操作时，一个RDD...

2019-04-18 19:56:10 424

原创 Spark - RDD持久化

概述缓存是用Spark构建迭代算法的关键，通过缓存，Spark避免了RDD上的重复计算，能够极大的提升计算速度，在Spark程序的调优中就会考虑到RDD的持久化机制。对于迭代算法和快速交互式应用来说，RDD持久化是非常重要的。Spark的持久化机制是自动容错的，如果持久化的RDD的任何partition丢失了，那么Spark会自动通过其源RDD，使用transformation操作重新计算par...

2019-04-18 19:56:02 175

原创 Docker初入门 - 命令译文(方便查询使用)

docker [options] command [arg…]options的可选项： --config=~/.docker 设置docker的配置文件地址 --config string 客户端配置文件的位置(默认为“/root/.docker”) -D,--debug 开启调试模式...

2019-03-30 19:34:33 121

原创 Docker初入门 - 部署 & MySQL镜像安装案例

目录：安装部署 MySQL安装及简单使用1. 系统环境系统：Centos7.xDocker版本：CE免费版2. 部署安装1、安装依赖包[root@docker001 ~]# yum install -y -yum-utils \> device-mapper-persistent-data \> lvm22、安装管理包[root@docker001 ~...

2019-03-30 18:40:20 199

转载 Hadoop各个服务端口列表

端口Hadoop集群的各部分一般都会使用到多个端口，有些是daemon之间进行交互之用，有些是用于RPC访问以及HTTP访问。而随着Hadoop周边组件的增多，完全记不住哪个端口对应哪个应用，特收集记录如此，以便查询。这里包含我们使用到的组件：HDFS, YARN, HBase, Hive, ZooKeeper:组件节点默认端口配置用途说明 HDF...

2019-03-27 14:17:32 1025

原创 Hive中的存储

存储格式默认textfile的使用：hive>create table t1(id int, name string) stored as textfile;hive>create table t1(id int, name string);默认存储的时候，使用的格式是textfile,上述两句语句的效果一样。hive>desc formatted t1; 默...

2019-03-25 21:10:54 672

原创大数据中的压缩

为什么要使用压缩随着数据量越来越大，对数据如何处理使得我们提高数据处理效率，如何选择和使用压缩就显得尤为重要。压缩的优点：1）减少文件大小（reduce file size）2）节省磁盘空间（svae disk space）3）增加网络传输速度及效率（Increase tansfer speed at a given data rate）压缩技术压缩分为无损压缩(Lossless ...

2019-03-11 13:26:43 1014

转载 YARN的Memory和CPU调优配置详解

2019-02-16 10:07:28 434

转载 zookeeper leader选举机制解读

原文链接：http://www.cnblogs.com/leesf456/p/6107600.html一、前言　　前面学习了Zookeeper服务端的相关细节，其中对于集群启动而言，很重要的一部分就是Leader选举，接着就开始深入学习Leader选举。二、Leader选举　　2.1 Leader选举概述　　Leader选举是保证分布式数据一致性的关键所在。当Zookeeper...

2019-02-14 10:18:03 237

原创 Hadoop-2.6.0 HA(高可用架构)部署(超详细)

目录集群规划Hadoop HA部署：1）软件环境2）系统环境准备3）配置SSH通信4）配置环境变量5）配置zookeeper6）配置Hadoop7）启动集群8）启动关闭顺序9）Hadoop HA部署避坑指南集群规划主机安装软件进程hadoop001Hadoop、ZookeeperNameNode DFSZKFailoverController...

2019-02-14 04:07:40 1150

转载 Linux报错：bash:vi:command not find 如何解决

Linux 命令行输入命令执行后报“bash:vi:command not found”，这是由于系统 PATH 设置问题，PATH没有设置正确，系统就无法找到精确命令了。解决办法： 1、在命令行中输入：export PATH=/usr/bin:/usr/sbin:/bin:/sbin:/usr/X11R6/bin 这样可以保证命令行命令暂时可以使用。命令执行完之后不要关...

2019-02-14 01:40:26 32881 6

原创 Hadoop测试LZO的index功能

目录准备测试数据压缩数据&amp;建立索引文件以wordcount的input运行MapReduceLZO索引说明准备测试数据因为默认的block是128M大，上传了一份小数据只有19M需要扩大，通过shell脚本解决。1.编写shell脚本[hadoop@192 data]$ touch create_data.sh[hadoop@192 data]$ vi create...

2019-02-11 15:54:08 1141

原创 Hadoop安装LZO

目录环境安装&amp;amp;amp;amp;amp;amp;amp;amp;编译配置Hadoop支持LZO环境Centos 6.5 64位JDK1.8Hadoop-2.6.0-cdh5.7.0LZO2.1.0包hadoop-lzoMaven3.6.0安装&amp;amp;amp;amp;amp;amp;amp;amp;编译1.安装依赖并下载lzo包[hadoop@192 sbin]$ sudo yum -y install lzo-dev

2019-02-11 14:11:15 635

原创 sqoop常用命令整理

111111111111111111111

2019-02-11 01:46:36 455

原创 sqoop概述与简单实践 & sqoop-1.4.6-cdh5.7.0安装

sqoop产生背景sqoop1与2的区别sqoop-1.4.6-cdh5.7.0安装常用命令操作数据导入导出案例实践产生背景当有数据想从RDBMS上抽取到Hadoop时，有以下几种方式：1）读取一个文件后，加载到Hive的表中2）通过编写shell脚本来获取RDBMS上的数据，之后通过HDFS shell中的put命令传到HDFS3）使用MapReduce将RDBMS上的数...

2019-02-11 00:43:05 773

原创 Hive简单概述及hive-1.1.0-cdh5.7.0安装部署

软件版本jdk8u45hadoop-2.6.0-cdh5.7.0.tar.gzhive-1.1.0-cdh5.7.0.tar.gzmysql-connector-java-5.1.46-bin.jarHive概述Hive由Facebook开源，起初是为了解决海量结构化日志的统计。是基于Hadoop之上的数据仓库（data warehouse）Hive 是一个使用SQL来操作分布...

2019-01-30 23:37:53 1672 2

原创 Spark2.4.0源码编译支持hadoop-2.6.0-cdh5.7.0

软件包JDK1.8.0_45Hadoop-2.6.0-cdh5.7.0scala-2.11.8Hadoop-2.6.0-cdh5.7.0apache-maven-3.3.9环境变量配置export JAVA_HOME=/home/hadoop001/app/jdk1.8.0_45export PATH=$JAVA_HOME/bin:$PATHexport HADOOP_HOM...

2019-01-30 00:09:41 626

原创 Hadoop2.6.0源码编译支持Snappy压缩

环境准备系统:Centos6.5 64位JDK1.7Maven：3.6.0Hadoop源码：Hadoop2.6.0-cdh5.7.0.src.tar.gzProtocol Buffer 2.5.0Jar依赖包安装Protocol Buffer 2.5.0root权限安装依赖包$ yum install -y gcc gcc-c++ make cmake指定安装目录...

2019-01-12 15:14:35 797

原创 Unable to load native-hadoop library for your platform解决方法

在执行hadoop命令的时候出现如下错误，不能加载Hadoop库WARN util.NativeCodeLoader: Unable to load native-hadoop library for your platform... using builtin-java classes where applicable检查发现本地并没有库[hadoop001@192 ~]$ hado...

2019-01-11 22:20:42 68416 19

原创 Idea Maven构建Scala项目Cannot connect t compileserver 解决方法

Idea Maven构建Scala项目后运行时报错解决方法Warning:scalac: Cannot connect to compile server at localhost/127.0.0.1:3200Trying to compile without it这是因为Scala Compile Server没有成功引导javaFile > Setting > Scala...

2018-12-28 18:21:35 4435 3

原创 Hadoop-2.6.0-cdh5.7.0 HDFS部署

1)添加sudo权限的无密码访问的hadoop用户[root@hadoop002 ~]# useradd hadoop[root@hadoop002 ~]# cat /etc/sudoers |grep hadoophadoop ALL=(ALL) NOPASSWD: ALL[root@hadoop002 ~]# [root@hadoop002 ~]# su - hadoo...

2018-12-10 20:41:49 554

原创 Centos6.5 64位二进制部署安装MySQL5.6

MySQL安装部署系统：Centos6.5JAVA：jdk-8u45-linux-x64.gzMySQL：sql-5.6.23-linux-glibc2.5-x86_64.tar.gz一、Java安装1、切换至root用户mv jdk-8u45-linux-x64.gzcd /usr/javachown -R root:root jdk1.8.0_45/ #填坑重要2、配...

2018-12-10 15:01:11 425

原创 centos7虚拟机配置完网络后无法访问外网

VM系统环境：Centos7 WINDOWS环境：win10搭建完初始系统环境后，发现无法连接外网。可以ping通网关，无法ping通外网。尝试解决方法：1、关闭防火墙2、route添加网关3、重新设置网卡依然无法解决，后想起windows系统下服务内存在VM的NAT服务，发现被系统优化软件优化成手动模式，在切换成自动模式开启后解决。...

2018-11-04 21:38:57 1358

转载 updates is listed more than once in the configuration解决方法

删除所有/etc/yum.repo.d/目录下所有repo文件，重新更换一遍源解决

2018-11-04 21:34:17 4312 1

转载 yum命令没有section头部问题解决方法

路径 cd /etc/yum.repos.d/删除所有repo文件 rm *.repos重新生成 rpm -Uvh --force http://mirror.centos.org/centos-7/7.5.1804/os/x86_64/Packages/centos-release-7-5.1804.el7.centos.x86_64.rpm ...

2018-11-04 21:33:06 340

空空如也

空空如也