XavierYen-CSDN博客

原创 Hadoop基础（七）：Hive调优

文章目录Explain（执行计划）Fetch（默认开启）本地模式（少量小文件）表优化数据倾斜并行执行（非依赖关系的子查询）严格模式JVM重用（串行化）推测执行压缩/存储格式Explain（执行计划）EXPLAIN [EXTENDED | DEPENDENCY | AUTHORIZATION] queryFetch（默认开启）在全局查找、字段查找、limit 查找等都不走 mapreduceset hive.fetch.task.conversion=more/none;本地模式（少量小文件

2021-03-02 01:53:32 312

原创集群环境下Kafka启动后自动关闭的解决方案

文章目录关于Kafka&ZooKeeper关于__consumer_offsets关于Kafka&ZooKeeper由于 Kafka 依赖于 ZooKeeper，启动后要去 ZooKeeper 中注册。因此开启服务的时候，是先开 ZooKeeper 后开 Kafka，而关闭服务的时候，是先关 Kafka 后关 ZooKeeper。注意这里 Kafka 关闭服务的时间较长，如果还未等到集群中的 Kafka 全部关闭，就去关闭 ZooKeeper，或者是先关了 ZooKeeper再关

2021-01-19 01:37:48 3300 1

原创 Shell脚本编程基础

文章目录Shell是什么Shell脚本Shell命令Shell是什么是一个环境，提供了对lunix（unix）系统的接口接收输入，并根据输入执行程序，显示程序的输出可以运行我们的命令，程序和shell脚本Shell脚本按照命令列表中列出的顺序执行创建 vi test.sh编辑 #!/bin/bash保存 esc 退出编辑模式 :x 保存并退出（同shift+zz）修改权限 chmod u+x test.sh执行 ./tes

2021-01-15 01:32:28 274

原创 Shell脚本实现Linux操作系统下多台虚拟机远程拷贝和命令操作

文章目录前言一、免密设置二、远程拷贝脚本三、配置环境变量脚本四、远程命令脚本前言利用脚本可实现多台虚拟机的JDK，Hadoop，Spark的快速安装配置。一、免密设置生成密钥和公钥[root@slave02 ~]# ssh-keygen -t rsa运行结果（直接敲回车键）Generating public/private rsa key pair.Enter file in which to save the key (/root/.ssh/id_rsa): Created

2021-01-11 19:12:07 675

原创 Java操作外部数据源（RDBMS，Hive，HBase）

文章目录一、RDBMS1.Maven工程添加依赖2.配置properties文件3.BaseConfig类4.BaseDao类5.Result类6.Test类二、Hive1.Maven工程添加依赖2.配置properties文件3.BaseConfig类4.BaseDao类5.Result类6.App类7.Sql语句文件8.查询结果三、HBase一、RDBMS1.Maven工程添加依赖<!-- https://mvnrepository.com/artifact/mysql/mysql-con

2021-01-10 23:58:53 592

原创 Spark操作外部数据源（RDBMS，Hive，HBase，Parquet）

文章目录一、Spark SQL二、Spark on Hive三、Hive on Spark一、Spark SQLRDD（Resilient Distribute Dataset），弹性分布式数据集。Resilient：RDD默认是存放于内存中，当内存不足时会自动写入磁盘。Distributed：RDD是将数据拆分为多个分区的集合，存储在集群的工作节点上的内存和磁盘中。Dataset：RDD只是用于做数据转换的接口，并不真正存储数据，指向的是对数据和操作的描述和记录。Lineage：RDD可

2021-01-10 18:19:07 429

原创正则表达式

文章目录一、概述二、字符种类三、非捕获元素与反向引用四、元字符五、运算符优先级六、匹配规则七、正则表达式实例八、正则表达式分组一、概述正则表达式（regular expression）是由普通字符和特殊字符组成的文字模式（pattern），描述在搜索文本时要匹配的一个或多个字符串。简言之就是作为一个模板，将字符串模式和搜索资源进行匹配。主要作用可以概括为三个方面：测试字符串内模式、替换文本、基于模式匹配从字符串中提取字符串。用多种元字符和运算符将小的表达式结合起来创建更大的表达式。可以是单个字符

2021-01-09 17:04:38 280

原创 Spark基础（一）：作业执行流程

文章目录Spark执行流程Spark执行流程提交应用程序Application（包括Driver代码和Executor代码）启动Driver，创建SparkContext对象，并加载配置信息、依赖信息和代码DAG graph：根据用户提交的计算逻辑（Application）中的RDD的转换和动作来生成RDD之间的依赖关系，同时这个计算链也就生成了逻辑上的DAG（有向无环图）。DAGScheduler：基于stage的调度器，负责创建Job，将DAG中的RDD划分到不同的Stage，并将Sta

2021-01-06 03:27:49 2923 4

原创 Scala学习笔记（一）：Array函数整理

文章目录一、字符串插值（拼接）Scala语言是一门基于JVM的编程语言，具有强大的功能，它即具有类似Java的面向对象的特性，而且也类似于C语言面向过程，函数也是一等公民，即不需要在隶属于哪一个类就可以执行。基于JVM的特性，使得scala和Java可以无缝互操作，scala可以任意操作Java的代码，两者的联系紧密。一、字符串插值（拼接）StringContext中有3种方式s 利用...

2020-12-29 02:05:39 545

原创 Shell脚本一键启动关闭HDFS&YARN&Hive&ZooKeeper&Hbase&Spark服务

文章目录一、启动服务二、关闭服务一、启动服务#!/bin/bashHB="hbase HMaster HRegionServer start-hbase.sh"ZK="zookeeper QuorumPeerMain zkServer.sh_start"HV="hive RunJar RunJar nohup_hive_--service_?>~/hive2.log_2>&1_&"YN="yarn NodeManager ResourceManager start

2020-12-17 17:25:54 489

原创 Hadoop基础（三）：分布式资源调度框架YARN

文章目录一、Yarn简介二、Yarn基本架构1.ResourceManager2.NodeManager3.ApplicationMaster4.Container三、Yarn执行流程四、Yarn资源调度器五、Yarn常用命令一、Yarn简介在 Hadoop2.x 时代，分离了 MapReduce 部分功能，将资源调度和运算分开，增加了 Yarn。Yarn 只负责资源的调度，MapReduce 只负责运算。而且 Yarn 不仅仅能运行 MapReduce 程序，还可以运行后面会学习的 Spark 应用

2020-12-17 08:25:40 720

原创 Hadoop基础（四）：Hadoop容错机制

文章目录一、HDFS副本机制二、YARN容错机制1.Map/ReduceTask2.ApplicationMaster3.Nodemanager4.ResourceManager三、HA高可用集群一、HDFS副本机制HDFS对于读写的容错机制是基于HDFS的副本机制对于文件上传HDFS副本放置策略是默认三个备份，当前节点一份，同一机架不同节点一份，不同机架任任意节点一份。如果上传过程中某一副本上传失败，那么整个块的上传失败，需要重新启动这个副本的上传。对于文件下载下载失败可能因为备份丢失或节点

2020-12-17 08:23:34 2778 3

原创 Hadoop基础（二）：分布式计算框架MapReduce

文章目录一、MapReduce基础入门1.为什么要MapReduce2.MapReduce优缺点3.MapReduce进程结构4.MapReduce程序运行流程分析一、MapReduce基础入门MapReduce是一个分布式运算程序的编程框架，是用户开发“基于hadoop的数据分析应用”的核心框架；MapReduce核心功能是将用户编写的业务逻辑代码和自带默认组件整合成一个完整的分布式运算程序，并发运行在一个Hadoop集群上。1.为什么要MapReduce海量数据在单机上处理因为硬件资源

2020-12-13 23:49:39 502

原创 Hadoop基础（一）：分布式文件系统HDFS

文章目录一、HDFS架构1.HDFS设计思想2.HDFS组成架构2.1 Client：客户端2.1 NameNode：元数据节点（Master）2.1 DateNode：数据存储节点（Slave）2.1 Secondary NameNode：从元数据节点（非NameNode热备）一、HDFS架构1.HDFS设计思想随着互联网产生的数据量越来越大，单个操作系统不能满足海量数据的存储要求，因此需要更多的操作系统磁盘来分配存储数据，但由此带来的问题是不方便管理和维护。分布式文件系统的产生就是为了解决多台机

2020-12-11 03:49:27 524 1

XavierYen的博客

原创 Hadoop基础（七）：Hive调优

原创集群环境下Kafka启动后自动关闭的解决方案

原创 Shell脚本编程基础

原创 Shell脚本实现Linux操作系统下多台虚拟机远程拷贝和命令操作

原创 Java操作外部数据源（RDBMS，Hive，HBase）

原创 Spark操作外部数据源（RDBMS，Hive，HBase，Parquet）

原创正则表达式

原创 Spark基础（一）：作业执行流程

原创 Scala学习笔记（一）：Array函数整理

原创 Shell脚本一键启动关闭HDFS&YARN&Hive&ZooKeeper&Hbase&Spark服务

原创 Hadoop基础（三）：分布式资源调度框架YARN

原创 Hadoop基础（四）：Hadoop容错机制

原创 Hadoop基础（二）：分布式计算框架MapReduce

原创 Hadoop基础（一）：分布式文件系统HDFS

原创 Sqoop数据传输

原创 Sqoop安装及配置

原创 Zookeeper&Hbase安装及配置

原创 Zeppelin安装及配置

原创 MySQL常用函数

原创 VMware虚拟机外网通内网不通的解决办法

原创 Java基础（三）：排序算法

原创 Java基础（二）：控制语句&数组

原创 Java基础（一）：数据类型&运算符

空空如也

空空如也