自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(23)
  • 收藏
  • 关注

原创 Hadoop基础(七):Hive调优

文章目录Explain(执行计划)Fetch(默认开启)本地模式(少量小文件)表优化数据倾斜并行执行(非依赖关系的子查询)严格模式JVM重用(串行化)推测执行压缩/存储格式Explain(执行计划)EXPLAIN [EXTENDED | DEPENDENCY | AUTHORIZATION] queryFetch(默认开启)在全局查找、字段查找、limit 查找等都不走 mapreduceset hive.fetch.task.conversion=more/none;本地模式(少量小文件

2021-03-02 01:53:32 267

原创 集群环境下Kafka启动后自动关闭的解决方案

文章目录关于Kafka&ZooKeeper关于__consumer_offsets关于Kafka&ZooKeeper由于 Kafka 依赖于 ZooKeeper,启动后要去 ZooKeeper 中注册。因此开启服务的时候,是先开 ZooKeeper 后开 Kafka,而关闭服务的时候,是先关 Kafka 后关 ZooKeeper。注意这里 Kafka 关闭服务的时间较长,如果还未等到集群中的 Kafka 全部关闭,就去关闭 ZooKeeper,或者是先关了 ZooKeeper再关

2021-01-19 01:37:48 2764 1

原创 Shell脚本编程基础

文章目录Shell是什么Shell脚本Shell命令Shell是什么是一个环境,提供了对lunix(unix)系统的接口接收输入,并根据输入执行程序,显示程序的输出可以运行我们的命令,程序和shell脚本Shell脚本按照命令列表中列出的顺序执行创建 vi test.sh编辑 #!/bin/bash保存 esc 退出编辑模式 :x 保存并退出(同shift+zz)修改权限 chmod u+x test.sh执行 ./tes

2021-01-15 01:32:28 228

原创 Shell脚本实现Linux操作系统下多台虚拟机远程拷贝和命令操作

文章目录前言一、免密设置二、远程拷贝脚本三、配置环境变量脚本四、远程命令脚本前言利用脚本可实现多台虚拟机的JDK,Hadoop,Spark的快速安装配置。一、免密设置生成密钥和公钥[root@slave02 ~]# ssh-keygen -t rsa运行结果(直接敲回车键)Generating public/private rsa key pair.Enter file in which to save the key (/root/.ssh/id_rsa): Created

2021-01-11 19:12:07 567

原创 Java操作外部数据源(RDBMS,Hive,HBase)

文章目录一、RDBMS1.Maven工程添加依赖2.配置properties文件3.BaseConfig类4.BaseDao类5.Result类6.Test类二、Hive1.Maven工程添加依赖2.配置properties文件3.BaseConfig类4.BaseDao类5.Result类6.App类7.Sql语句文件8.查询结果三、HBase一、RDBMS1.Maven工程添加依赖<!-- https://mvnrepository.com/artifact/mysql/mysql-con

2021-01-10 23:58:53 470

原创 Spark操作外部数据源(RDBMS,Hive,HBase,Parquet)

文章目录一、Spark SQL二、Spark on Hive三、Hive on Spark一、Spark SQLRDD(Resilient Distribute Dataset),弹性分布式数据集。Resilient:RDD默认是存放于内存中,当内存不足时会自动写入磁盘。Distributed:RDD是将数据拆分为多个分区的集合,存储在集群的工作节点上的内存和磁盘中。Dataset:RDD只是用于做数据转换的接口,并不真正存储数据,指向的是对数据和操作的描述和记录。Lineage:RDD可

2021-01-10 18:19:07 353

原创 正则表达式

文章目录一、概述二、字符种类三、非捕获元素与反向引用四、元字符五、运算符优先级六、匹配规则七、正则表达式实例八、正则表达式分组一、概述正则表达式(regular expression)是由普通字符和特殊字符组成的文字模式(pattern),描述在搜索文本时要匹配的一个或多个字符串。简言之就是作为一个模板,将字符串模式和搜索资源进行匹配。主要作用可以概括为三个方面:测试字符串内模式、替换文本、基于模式匹配从字符串中提取字符串。用多种元字符和运算符将小的表达式结合起来创建更大的表达式。可以是单个字符

2021-01-09 17:04:38 207

原创 Spark基础(一):作业执行流程

文章目录Spark执行流程Spark执行流程提交应用程序Application(包括Driver代码和Executor代码)启动Driver,创建SparkContext对象,并加载配置信息、依赖信息和代码DAG graph:根据用户提交的计算逻辑(Application)中的RDD的转换和动作来生成RDD之间的依赖关系,同时这个计算链也就生成了逻辑上的DAG(有向无环图)。DAGScheduler:基于stage的调度器,负责创建Job,将DAG中的RDD划分到不同的Stage,并将Sta

2021-01-06 03:27:49 2820 4

原创 Scala学习笔记(一):Array函数整理

文章目录一、字符串插值(拼接)Scala语言是一门基于JVM的编程语言,具有强大的功能,它即具有类似Java的面向对象的特性,而且也类似于C语言面向过程,函数也是一等公民,即不需要在隶属于哪一个类就可以执行。基于JVM的特性,使得scala和Java可以无缝互操作,scala可以任意操作Java的代码,两者的联系紧密。一、字符串插值(拼接)StringContext中有3种方式s 利用...

2020-12-29 02:05:39 488

原创 Shell脚本一键启动关闭HDFS&YARN&Hive&ZooKeeper&Hbase&Spark服务

文章目录一、启动服务二、关闭服务一、启动服务#!/bin/bashHB="hbase HMaster HRegionServer start-hbase.sh"ZK="zookeeper QuorumPeerMain zkServer.sh_start"HV="hive RunJar RunJar nohup_hive_--service_?>~/hive2.log_2>&1_&"YN="yarn NodeManager ResourceManager start

2020-12-17 17:25:54 422

原创 Hadoop基础(三):分布式资源调度框架YARN

文章目录一、Yarn简介二、Yarn基本架构1.ResourceManager2.NodeManager3.ApplicationMaster4.Container三、Yarn执行流程四、Yarn资源调度器五、Yarn常用命令一、Yarn简介在 Hadoop2.x 时代,分离了 MapReduce 部分功能,将资源调度和运算分开,增加了 Yarn。Yarn 只负责资源的调度,MapReduce 只负责运算。而且 Yarn 不仅仅能运行 MapReduce 程序,还可以运行后面会学习的 Spark 应用

2020-12-17 08:25:40 542

原创 Hadoop基础(四):Hadoop容错机制

文章目录一、HDFS副本机制二、YARN容错机制1.Map/ReduceTask2.ApplicationMaster3.Nodemanager4.ResourceManager三、HA高可用集群一、HDFS副本机制HDFS对于读写的容错机制是基于HDFS的副本机制对于文件上传HDFS副本放置策略是默认三个备份,当前节点一份,同一机架不同节点一份,不同机架任任意节点一份。如果上传过程中某一副本上传失败,那么整个块的上传失败,需要重新启动这个副本的上传。对于文件下载下载失败可能因为备份丢失或节点

2020-12-17 08:23:34 2548 3

原创 Hadoop基础(二):分布式计算框架MapReduce

文章目录一、MapReduce基础入门1.为什么要MapReduce2.MapReduce优缺点3.MapReduce进程结构4.MapReduce程序运行流程分析一、MapReduce基础入门MapReduce是一个分布式运算程序的编程框架,是用户开发“基于hadoop的数据分析应用”的核心框架;MapReduce核心功能是将用户编写的业务逻辑代码和自带默认组件整合成一个完整的分布式运算程序,并发运行在一个Hadoop集群上。1.为什么要MapReduce海量数据在单机上处理因为硬件资源

2020-12-13 23:49:39 450

原创 Hadoop基础(一):分布式文件系统HDFS

文章目录一、HDFS架构1.HDFS设计思想2.HDFS组成架构2.1 Client:客户端2.1 NameNode:元数据节点(Master)2.1 DateNode:数据存储节点(Slave)2.1 Secondary NameNode:从元数据节点(非NameNode热备)一、HDFS架构1.HDFS设计思想随着互联网产生的数据量越来越大,单个操作系统不能满足海量数据的存储要求,因此需要更多的操作系统磁盘来分配存储数据,但由此带来的问题是不方便管理和维护。分布式文件系统的产生就是为了解决多台机

2020-12-11 03:49:27 417 1

原创 Sqoop数据传输

文章目录Sqoop简介一、RDBMS => HDFS二、RDBMS => Hive三、RDBMS => HbaseSqoop简介        Apache Sqoop(SQL-to-Hadoop)项目旨在协助RDBMS与Hadoop之间进行高效的大数据交流。用户可以通过 Sqoop 轻松地把关系型数据库的数据导入到 Hadoop 及其相关的系统 (如HBase和Hive)中;同时也可以把数据从 Hado

2020-11-19 19:22:56 474 2

原创 Sqoop安装及配置

文章目录一、解压&授权二、拷贝jar包三、配置一、解压&授权解压安装包到指定目录并重命名如果不是root:root要修改一下权限二、拷贝jar包因为Sqoop主要用于在Hadoop与RDBMS间进行数据的传递,所以要将连接数据库的jar包和Hadoop的三个jar包拷贝至sqoop的lib目录下三、配置拷贝配置文件并重命名,防止文件配置错误重新打开一个窗口找到以下这些路径将对应的路径配置到文件中拷贝sqoop的安装路径,并查看sqoop的目录下是否有sbin

2020-11-18 15:52:59 1066 1

原创 Zookeeper&Hbase安装及配置

文章目录一、Zookeeper1.解压&授权2.配置二、Hive1.解压&授权2.配置一、Zookeeper1.解压&授权解压安装包到指定目录并重命名如果不是root:root要修改一下权限2.配置拷贝cfg文件并重命名在zookeeperde的根目录下新建一个mydata文件夹,并拷贝mydata的路径配置zoo.cfgserver.1为服务器编号master为服务器地址或者虚拟机的hostname2888为服务器之间的端口号3888为选举端口号

2020-11-17 17:24:53 406 2

原创 Zeppelin安装及配置

文章目录一、解压&授权二、配置zeppelin1.zeppelin-site.xml2.zeppelin-env.sh三、拷贝配置文件和jar包四、启动zeppelin服务五、Web端数据可视化一、解压&授权解压安装包到指定目录并重命名和修改权限二、配置zeppelin1.zeppelin-site.xml先将临时文件重命名,再进行编辑。2.zeppelin-env.sh先将临时文件重命名,再进行编辑。这里需要配置JAVA_HOME和HADOOP_HOME的环境

2020-11-14 00:04:25 541

原创 MySQL常用函数

文章目录一、数学函数二、字符串函数三、日期函数四、系统级函数五、聚合函数六、个别函数解析1.group_concat2.读入数据总结一、数学函数函数说明abs(v)返回v的绝对值floor(v)返回不大于v的最大整数(去掉小数)ceil(v)返回不小于v的最小整数(有效数进1)truncate(v,n)对v保留n位小数精度round(v)保留整数,四舍五入round(v,n)保留v的n位小数,四舍五入rand()返回0~1的随机数

2020-11-11 19:01:38 102

原创 VMware虚拟机外网通内网不通的解决办法

提示:文章写完后,目录可以自动生成,如何生成可参考右边的帮助文档目录前言一、卸载VMware和虚拟机二、下载安装CCleaner三、设置本地服务四、重装VMware和虚拟机前言在安装完VMware虚拟机之后,外网能ping通但是无法ping通内网,或者是Xshell连接不上虚拟机的操作系统,可能是因为主机没有下面这两个网络适配器。首先可以尝试下面几种方法1、重装VMware和虚拟机2、还原虚拟网络编辑器的默认设置3、开启如下图所示的服务如果还是不行,可以尝试下面这个方法,亲测有效

2020-10-19 14:57:48 2656

原创 Java基础(三):排序算法

目录一、冒泡排序二、选择排序三、插入排序1.引入库2.读入数据总结一、冒泡排序提示:这里可以添加本文要记录的大概内容:例如:随着人工智能的不断发展,机器学习这门技术也越来越重要,很多人都开启了学习机器学习,本文就介绍了机器学习的基础内容。public class Sort { public static void main(String[] args){ Random rand = new Random(); int[] arr = new int[10]; for (in

2020-10-08 00:12:49 84

原创 Java基础(二):控制语句&数组

提示:文章写完后,目录可以自动生成,如何生成可参考右边的帮助文档文章目录一、选择结构1.单分支二、循环结构三、一维数组1.引入库2.读入数据总结一、选择结构1.单分支提示:这里可以添加本文要记录的大概内容:例如:随着人工智能的不断发展,机器学习这门技术也越来越重要,很多人都开启了学习机器学习,本文就介绍了机器学习的基础内容。public class Practice { public static void main(String[] args){ }}

2020-10-07 23:44:02 151

原创 Java基础(一):数据类型&运算符

Java基础:数据类型&运算符一、Java变量1.数据类型2.使用步骤二、Java常量三、运算符1.引入库2.读入数据总结一、Java变量变量:一种数据存储空间的表示1.数据类型基本数据类型数据类型默认值位数取值范围封装器类byte(字节型)08-2^7 ~ 2^7-1Byteshort(短整型)016-2^15 ~ 2^15-1Shortint(整型)032-2^31 ~ 2^31-1Integerlong(长整型

2020-10-07 19:24:29 134

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除