自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(92)
  • 收藏
  • 关注

原创 MapReduce--WC案例以及初识源代码

MapReduce--WC案例以及初识源代码1 MapReduce 介绍Hadoop 官网MapReduce 是一个基于Google的同名论文开发出来的。 MapReduce 是一个计算框架。 MapReduce 是一个高性能的分布式计算框架,用于对海量数据进行并行分析和处理1.1 MapReduce 优点MapReduce适合于离线计算/批计算 MapReduce编程对于自己实现分布式而言是要简单的 扩展性强...

2020-12-02 20:28:40 527

原创 HDFS 常见API使用及编程

HDFS 常见API使用及编程1 pom 文件增加依赖<dependencies> <dependency> <groupId>org.apache.hadoop</groupId> <artifactId>hadoop-client...

2020-12-01 14:42:48 285

原创 Protocol Buffers 2.5.0 安装找不到make文件

Protocol Buffers 2.5.0 安装找不到make文件由于要编译tez,需要Protocol Buffers 2.5.0,从官网上面下载2.5程序包wget https://github.com/protocolbuffers/protobuf/releases/download/v2.5.0/protobuf-2.5.0.tar.gztar zxvf protobuf-2.5.0.tar.gz cd protob...

2020-07-26 19:24:17 195

原创 Hue遇到SASL报错

Hue遇到SASL报错背景:环境:三个节点CDH6.2.0集群,JDK:1.8+添加Hue服务之后,连接Hive,运行Hql遇到这个错误:Could not start SASL: Error in sasl_client_start (-4) SASL(-4): no mechanism解决办法:[root@bigdatatest03 ~]# yum inst...

2020-07-15 16:25:03 312

原创 HdfsApi中copyToLocalFile中报空指针

HdfsApi中copyToLocalFile中报空指针环境:Hadoop2.6.0-cdh5.16.2、jdk1.8代码:package com.xk.Hdfs;import org.apache.hadoop.conf.Configuration;import org.apache.hadoop.fs.FileSystem;import org.apache.hadoop.fs.Path;import java.n...

2020-07-09 23:23:50 397

原创 Flume详解

一、Flume简介二、Flume特点三、Flume的一些核心概念 3.1、Agent结构   3.2、source 3.3、Channel 3.4、Sink四、Flume拦截器、数据流以及可靠性 4.1、Flume拦截器 4.2、Flume数据流 4.3、Flume可靠性五、Flume使用场景 5.1、多个agent顺序连接 5.2、多个Agent的数据汇聚到同一个Agent 5.3、多级流 5.4、load balance功能六、Flume核心组件 6.1、Source

2020-06-08 16:17:08 374

原创 Kafka总结

一.消息队列Message Queue二.Kafka简介三.Kafka架构四.Kafka工作流程五.Kafka消费语意

2020-06-03 15:50:47 181

原创 Spark总结

Spark总结一 .Spark介绍二.Spark与MapReduce、storm的区别三.RDD 1.RDD介绍 2.RDD五大特性 3.RDD创建 4.RDD转换和动作 5.RDD持久化 6.RDD序列化 7.RDD共享变量四.Spark运行机制五.SparkSQL六.SparkStreaming...

2020-05-28 20:00:16 663

原创 HIVE总结

HIVE总结一.HIVE的背景数据存储在HDFS(分布式存储框架),举个简单的例子,如果需要在HDFS上面做个WC(wordcount),都需要经过mr(mapreduce),如果数据量过多,mr的job会花费大量的时间,但是对于熟悉SQL的人来说,其实...

2020-04-22 17:03:50 204

原创 Hadoop总结

Hadoop总结本文说的Hadoop主要是分析2X,Hadoop可以分成HDFS、YARN、MapReduceHadoop官网:http://hadoop.apache.org既然是个分布式计算框架,首先要有一个分布式存储软件HDFS,那么存储有了,...

2020-03-23 21:08:03 325

原创 SQOOP运行缺少java-json jar报错

SQOOP运行缺少java-json jar报错运行SQOOP遇到此类错误[hadoop@xkhadoop shell]$ sh -x ods_init.sh ruozedata_supplier+ '[' 1 '!=' 1 ']'++ date '-d-1 day' +%Y-%m-%d+ YESTERDAY=2020...

2020-01-05 17:04:21 883

原创 SQOOP安装

SQOOP安装1.下载SQOOP[hadoop@xkhadoop software]$ wget http://archive.cloudera.com/cdh5/cdh/5/sqoop-1.4.6-cdh5.16.2.tar.gz2.解压SQOOP[hadoop@xkhadoop software]...

2020-01-05 16:38:32 173

原创 配置DBeaver连接HIVE

配置deaver连接HIVE1.开启HIVE service2 服务[hadoop@xkhadoop bin]$ ./hiveserver2 which: no hbase in (/home/hadoop/app/hive/bin:/usr/bin/java/bin:/home/hadoop/app/hadoop/bin...

2020-01-05 13:40:42 488

原创 HIVE--DDL

HIVE--DDL一.DDL概念介绍DDL:数据库模式定义语言DDL(Data Definition Language),是用于描述数据库中要存储的现实世界实体的语言。我个人理解DDL就是对表的Metadata(元数据)操作的语言HIVE官方的是DDL地址:https://cwiki.apa...

2019-12-26 23:47:24 162

原创 初识HIVE

初识HIVE前言: 之前虽然了解HIVE,但是也只是在hql层面上的了解,于是重新学习一下HIVE,把自己的一些心得和常用笔记整理到博客里面一.HIVE的背景 数据存储在HDFS(分布式存储框架),举个简单的例子,如果需要在HDFS上面做个WC(wordcount...

2019-12-16 22:47:50 158

原创 hive-1.1.0-cdh5.16.2部署

hive-1.1.0-cdh5.16.2部署一.下载 [hadoop@xkhadoop app]$ wget http://archive.cloudera.com/cdh5/cdh/5/hive-1.1.0-cdh5.16.2.tar.gz从cloudera公司给的地址下载二.解压和配置文件[ha...

2019-12-16 21:05:22 718 1

原创 YARN调度器详解

YARN调度器详解一.先介绍下yarn有哪些调度器:FIFO 先进先出 Capacity 计算 Fair 公平二.这些调度器有什么差异FIFO:意思就是谁的job先执行就会占用当前的所有资源,直到这个job执行结束之后才会执行下一个job,再生产上面不推荐,因为如果我凌晨一点执行了一个大型的job需要跑四...

2019-12-14 17:34:51 452

原创 YARN的调优参数

YARN的调优参数一.Container概念Container我个人理解成一块虚拟的空间,是由menory和vcore一起组成的vcore这个概念是由yarn提出来的,为了防止在一个集群里面的各个机器的core性能不一致才提出这个概念,这指的是一个虚拟化的core,如果在同一个集群里面一台机器的CPU处理性能很好...

2019-12-14 17:14:46 908

原创 文件格式和压缩格式介绍

文件格式和压缩格式介绍一.常用的文件存储格式TEXTFILE textfile为默认格式,存储方式为行式存储,在检索时磁盘开销大 数据解析开销大,而对压缩的text文件 hive无法进行合并和拆分 SEQUENCEFILE 二进制文件,以<key,value>的形式序列化到文件中,存储方式为行式存储,可以对文件进...

2019-12-14 16:17:56 820

原创 MapReduce详解(二)

MapReduce详解(二)今天介绍的主要是运行环境是MR ON YARN一.MR详解 MR是Hadoop里面的一种计算框架map:映射shuffle:洗牌reduce:聚合既然是计算框架,那肯定有数据输入端、数据输出端,首先先把数据通过input split ,切分成一个个分片,一个分片对应...

2019-12-14 14:59:10 187

原创 用户根目录下缺少隐藏文件案例

案例:新建一个ray用户,然后把此用户根目录下面的隐藏文件全部删除[root@xkhadoop ~]# useradd ray[root@xkhadoop ~]# id rayuid=1002(ray) gid=1002(ray) 组=1002(ray)[root@xkhadoop ~]# su - ray[ray@xkhadoop ~]$ ll总用量 0[ray@xkhado...

2019-12-14 14:17:43 302

原创 Hadoop--HDFS详解(三)

Hadoop--HDFS详解(三)一.副本放置策略HDFS的副本放置个数是由dfs.replizhuangtacation 这个参数配置的,dfs.replication默认值是3,在生产环境下默认三个就可以了。三个副本的存放位置: 1.如果上传文件的节点存在dn,第一份副本则存放在本节点上面,如果上传文...

2019-12-06 21:25:37 1161

原创 Hadoop--HDFS详解(二)

Hadoop--HDFS详解(二)前言:HDFS详解(一):https://blog.csdn.net/qq_41301707/article/details/84780505 已经把HDFS的基础介绍完了,这里主要是把一些HDFS里面比较重点的一些东西记录一下一.block介绍:HDFS会将文件分割成block,每个...

2019-12-02 22:53:53 821

原创 Linux OOM-Killer机制和/tmp目录自动清理

Linux OOM-Killer机制和clear机制参考博客:https://www.yundaiwei.com/post/508.html1.Linux的OOM-Killer机制介绍:OOM Killer的全称为Out of Memory (OOM) killer,它的作用简单点说就是,当系统的内存用光的时候,系统内核会自...

2019-12-01 13:18:19 641

原创 jps命令详解

jps命令详解首先先介绍一下jps命令:jps(Java Virtual Machine Process Status Tool)是java提供的一个显示当前所有java进程pid的命令,适合在linux/unix平台上简单察看当前java进程的一些简单情况。1.查询一下jps位置在哪里[hadoo...

2019-12-01 12:55:30 1691

原创 hadoop-2.6.0-cdh5.16.2部署

hadoop-2.6.0-cdh5.16.2部署1.首先先下载tar包并解压[hadoop@xkhadoop software]$ wget http://archive.cloudera.com/cdh5/cdh/5/hadoop-2.6.0-cdh5.16.2/[hadoop@xkhadoop software]$ ll总...

2019-11-29 23:52:18 1820 1

原创 Mysql--笛卡尔积案例

Mysql--笛卡尔积案例数据还是从上篇博客里面获取数据上篇博客地址:https://blog.csdn.net/qq_41301707/article/details/1032453691.原本emp表中只有14条数据,但是因为没有在where条件中写emp表和dept表的关联关系,导致查询出来的数据有56...

2019-11-25 21:27:14 1131

原创 Mysql基本语句案例

Mysql基本语句案例数据案例--部门表dept部门表(deptno部门编号/dname部门名称/loc地点)create table dept ( deptno numeric(2), dname varchar(14), loc varchar(13));insert into dep...

2019-11-25 21:12:05 839

原创 Mysql基本用法补充

Mysql基本用法补充1.DCL 数据控制语言:grant创建DB user创建database:create database test;创建用户及赋予权限%:代表所有IP都可以登陆这个账号grant all privileges on *.* to xk@'%' identified by '...

2019-11-25 18:27:07 151

原创 Mysql5.7.28部署安装

Mysql5.7.28部署安装1.下载下载路径:https://dev.mysql.com/downloads/mysql/5.7.html2.把Mysql放到Linux机器里面[root@xkhadoop local]# tar -xzvf mysql-5.7.28-linux-glibc2.12-x86_64.ta...

2019-11-24 18:03:35 350

原创 Rundeck部署安装

Rundeck部署安装Rundeck官网:https://www.rundeck.com/open-sourceRundeck介绍:Rundeck是一个基于Java和Grails的开源的运维自动化工具,提供了Web管理界面进行操作,同时提供命令行工具和WebAPI的访问控制方式。像Ansible之类的工具...

2019-11-24 13:58:47 1320

原创 用户根目录下缺少隐藏文件案例

案例:新建一个ray用户,然后把此用户根目录下面的隐藏文件全部删除[root@xkhadoop ~]# useradd ray[root@xkhadoop ~]# id rayuid=1002(ray) gid=1002(ray) 组=1002(ray)[root@xkhadoop ~]# su - ray[ray@xkhadoop ~]$ ll总用量 0[ray@xkhado...

2019-11-18 22:24:37 385

原创 初识Python

初识Python首先先介绍一下Python:Python是一种计算机程序设计语言。是一种面向对象的动态类型语言,最初被设计用于编写自动化脚本(shell),随着版本的不断更新和语言新功能的添加,越来越多被用于独立的、大型项目的开发。Python的优点:简单、功能强大、支持面向...

2019-06-08 16:18:24 168

转载 Spark 分区(Partition)的认识、理解和应用

转载地址:https://blog.csdn.net/zhangzeyuan56/article/details/80935034一、什么是分区以及为什么要分区?Spark RDD 是一种分布式的数据集,由于数据量很大,因此要它被切分并存储在各个结点的分区当中。从而当我们对RDD进行操作时,实际上是对每个分区中的数据并行操作。 ...

2019-05-26 17:26:06 575

原创 Hadoop生态圈常用端口

Hadoop生态圈常用端口HDFS:50070 HDFSWEBUI端口:8020 HDFS内部端口:8088 Yarn的WEBUI接口:8032 NameNode:9000 .SecondaryNameNode:50090 DataNode:50010 历史服务器Web端口:19...

2019-05-15 21:24:12 280

原创 Hadoop HDFS 出现 WARN Unable to load native-hadoop library for your platform解决方法

在开启Hadoop的时候出现这个报错[xkhadoop@xkhadoop sbin]$ hadoop fs -ls /19/04/16 11:20:40 WARN util.NativeCodeLoader: Unable to load native-hadoop library for your platform... using builtin-java classes where a...

2019-04-16 15:17:00 376

原创 常见的dos命令

操作文件夹: dir 列出当前控制台所在的路径下的所有文件以及文件夹。 cd 路径 进入指定的路径下。 cd .. 回退到上一级目录上。 cd \ 回退到当前路径下的根目录。 md 文件夹的名字 创建一个文件夹 rd 文件夹的名字...

2019-04-15 14:23:23 94

原创 深入理解RDD

GitHub中Spark地址:https://github.com/apache/sparkGitHub中Spark-RDD地址:https://github.com/apache/spark/tree/master/core/src/main/scala/org/apache/spark/rdd<一>.什么是RDD:RDD(Resilient Distributed Da...

2019-04-06 21:27:15 251

原创 Spark的部署和编译

一.下载Spark源码以及需要的一些软件Spark 2.20源码包下载http://archive.apache.org/dist/spark/spark-2.2.0/spark-2.2.0.tgz[xkhadoop@xkhadoop ~]$ wget http://archive.apache.org/dist/spark/spark-2.2.0/spark-2.2.0.tgz[xk...

2019-04-06 19:50:44 262

原创 Hive部署

Hive环境搭建[xkhadoop@xkhadoop software]$ wget http://archive.cloudera.com/cdh5/cdh/5/hive-1.1.0-cdh5.7.0.tar.gz[xkhadoop@xkhadoop software]$ tar -xzvf hive-1.1.0-cdh5.7.0.tar.gz -C ~/app1) 添加HIVE_...

2019-04-03 17:12:47 106

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除