自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

我还是个菜鸟

我还是个菜鸟! 如有错误,请多指教.

  • 博客(40)
  • 收藏
  • 关注

原创 大数据运维 - Linux 之 软中断(softirq )

Linux 之 软中断 (softirq )一、什么是软中断1. 什么是中断为什么要用中断① 什么是interrupt?② 为什么要用中断系统③ 中断 (故障现场处理手段)隔离变化保存当前工作“现场”2. 软中断由来3. 具体什么是软中断二、软中断与硬中断区别三、软中断的危害与排查一、什么是软中断1. 什么是中断为什么要用中断① 什么是interrupt?interfere in someone else’s activity 就是干扰其它人的事情。这就是所谓interrupt的本质。从计算机的语境

2022-01-03 10:49:29 534

原创 kafka 删除topic 不成功

利用kafka命令删除topic不成功。kafka-topics.sh --zookeeper hadoop111:2181 --delete --topic test 原因&解决方式1. 配置文件未将delete.topic.enable=true,导致删除命令未及时生效;解决方式:第一种:找到conf目录下server.properties配置文件,修改delete.topic.enable=true,代表删除立即生效;[ssrs@hadoop111 config]$ pwd /opt/mod

2022-01-03 10:17:18 2552

原创 第八天 hadoop 数据的清洗、串行MR、压缩算法

数据的清洗、多map job、压缩算法一、数据的清洗案例数据效果map端清洗client端二、计数器工具三、串行MapReduce Job案例:数据思路Map端1. 平均数map端2. 计数端map3. sum端mapReduce端1. 平均数reduce端2. 计数端reduceClient 端四、压缩案例:Unzipzip一、数据的清洗目的:将Flume采集到的原始数据通常都不规范,格式不符合要求,错误的无效的数据 清除 数据来源: web项目的数据(用户操作日志),数据 , app ,

2020-09-12 19:50:09 596

原创 第七天 hadoop shuffle过程

shuffle一、Shuffle(重要,MR的核心)1. 概念 (分组、排序、合并)2. 阶段:map阶段的Shuffle:reduce 阶段的shuffle二、 reduce阶段的多表合并三、map阶段的多表合并四、数据的清洗一、Shuffle(重要,MR的核心)1. 概念 (分组、排序、合并) 是从map结束到reduce开始之间的过程 包括: partitions 、copy 、 sort 阶段 和一些可选操作(合并/压缩等操作)[外链图片转存失败,源站可能有防盗链机制,建议将图片保存

2020-09-12 18:53:57 179

原创 第六天 hadoop MapReduce运行原理

MR运行原理一、MapReduce概述<1>概念<2>特点<3>底层的实现流程<4> MapReduce案例----wordCount思路Map端Reduce 端client端二、MapReduce运行流程1. 在MapReduce作业中的进程2. mr程序执行流程二、MapReduce 并行度 决定机制MapTask并行度 决定机制ReduceTask的并发度决定机制三、切片机制切片优化四、数据的分区五、数据的排序六、数据的合并七、案例 单词统计Map端

2020-09-12 17:21:22 244

原创 第五天 hadoop DataNode、节点的退役与服役

DataNode和MR运行原理

2020-09-12 16:39:34 475

原创 第四天 hadoop HDFS上传下载原理

一、HDFS数据流向模型(上传和下载)1>网络拓扑结构和机架感知1. 网络拓扑 节点距离:两个节点到达共同父节点的距离和2. 机架感知 ( 副本节点的选择 ) 例如:500个节点,上传数据jdk.tar.gz ,设定副本数为3, 根据机架感知,副本数据存储节点的选择。<2>上传操作数据流向模型1. client向namenode发送上传请求(将本地e:/myfile.txt上传到HDFS)2. NameNode返回上传请求结果3. clinet

2020-09-10 17:04:45 224

原创 第一天 hadoop概述

体系架构一、hadoop大数据 概述<1>概念1. 概念: 大数据(big data),指无法在一定时间范围内用 常规软件工具 进行捕捉、管理和处理的数据集合。 解决的问题的是:海量数据的存储和处理问题2. 单位 1 Byte =8 bit 1 KB = 1,024 B 1 MB = 1,024 KB 1 GB = 1,024 MB 1 TB = 1,024 GB 1 PB = 1,024 TB (数据量在PB级别) 1 EB = 1,024 PB

2020-09-10 16:31:56 680

原创 hadoop 常用命令

hdfs haadmin1、-transitionToActive 2、-transitionToStandby :将指定的namenode ID切换为Active或者standby。这个指令并不会触发“fencing method”,所以不常用,我们通常使用"hdfs haadmin -failover"来切换Namenode状态。3、-failover [–forcefence] [–foreactive] :在两个Namenode之间failover。这个指令会触发将first节点fail

2020-09-10 15:06:12 2490 1

原创 第三天 hadoop文件系统

一、系统启动脚本分析( hdfs+yarn : 五个守护进程 )sbin/start-all.sh (过时了,推荐使用下面的两种方式)调用 :start-dfs.shstart-yarn.shsbin/start-dfs.sh (hdfs相关的进程)启动名称节点启动数据节点启动辅助名称节点使用:hadoop-daemons.sh 启动名称节点、数据节点、辅助名称节点sbin/start-yarn.sh (yarn相关的进程)启动资源管理

2020-09-10 14:56:29 177

原创 第二天 hadoop 运行模式

一、sshSSH:安全的远程连接 xshell/putty工具连接linux系统时,使用的方式就是ssh 语法: ssh ip地址 密码伪分布模式:主节点 master 管理 多个 从节点 slaveSSH的无秘登陆:二、Hadoop伪分布模式<1>设置三种模式的切换( 配置文件 + 守护进程的启动 = hadoop集群 )hadoop/etc/hadoop (hadoop 连接文件) hadoop/etc/f

2020-09-10 13:05:00 182

原创 第 14 天 Java 网络编程

Java 网络编程(ip、tcp、udp )一、网络编程概述1. 如何实现网络中的主机互相通信2. 网络通信协议3. ip 和端口号4. InetAddress类二、 网络协议1. 概述2. TCP/IP协议簇3. TCP 和 UDP4. Socket三、TCP网络编程1. 基于Socket的TCP编程例题四 、UDP网络通信五、URL编程1. URL类2. 针对HTTP协议的URLConnection类3. URI、URL和URN的区别六、小 结一、网络编程概述Java是 Internet 上的语言,

2020-08-27 19:28:38 286

原创 第 13 天 Java 泛型、IO流

Java 泛型、IO流一、泛型1. 概述2. 使用的好处3. 泛型的使用3.1 在集合中使用泛型3.2 自定义泛型3.3 泛型方法4. 通配符使用4.1 有限制的通配符5. 泛型应用举例二、IO1. File类的使用1.1 常用构造器1.2 路径分隔符1.3 常用方法1.3.1 **File类的获取功能**1.3.2 **File类的重命名功能**1.3.3 **File类的判断功能**1.3.4 **File类的创建功能**1.3.5 File类的删除功能1.3.6 实例2. IO流原理及流的分类2

2020-08-26 18:48:22 399

原创 第 12 天 Java 集合(collection,set,map)

集合[collection,set,map]一、集合框架概述1. 概述2. 集合使用场景3. 集合的分类二、collection1. 概述2. api 方法3. Iterator迭代器接口1) 迭代器概述2)迭代器方法三、List接口1. 概述2. API 方法3. List实现类3.1 ArrayList3.2 LinkedList3.3 Vector3.4 ArrayList/LinkedList/Vector的异同?ArrayList底层是什么?扩容机制?Vector和ArrayList的最大区别?四

2020-08-25 16:53:56 283

原创 第11天 Java 常用类(String、时间、Math、system、比较器)

Java 常用类(String、时间、Math、system、比较器)一、字符串相关的类1. String 概念二、日期时间三、比较器四、System 类五、Math 类六、BigInteger与BigDecimal4. StringBuffer 类4.1 StringBuffer类 概念4.2 StringBuffer 使用与方法5. StringBuilder 类java.text.SimpleDateForm6. String、StringBuffer、StringBuilder比较

2020-08-20 10:21:51 278

原创 第十天 Java 异常、多线程、线程池

一、异常1 运行时异常2 编译时异常3. 常见异常4. 异常的处理5. try-catch-finally不捕获异常时的情况6. throw重写方法声明抛出异常的原则4.3 手动抛出异常4.5 自定义异常类5.总结二、线程1. 基本概念(程序,进程,线程)1)使用多线程的优点2)何时使用多线程2. 线程的创建和使用2.1 重建线程的方式1)继承Thread类2)实现Runnable接口3)继承方式和实现方式的联系与区别2 线程池JDK5.0新增线程创建方式

2020-08-19 14:46:53 226 1

原创 第九天 Java面向对象之抽象类、接口、内部类、代码块

Java面向对象之抽象类、接口、内部类一、抽象类1. 概念2. 注意事项3. 实例应用4. 实际意义二、接口 (interface)1. 基本概念2.特点3. 类和接口之间的关系4. 抽象类和接口之间的主要区别5. 实例6. jdk1.8 后的改进7. 接口默认方法三、内部类1.概念为什么需要内部类?2. 声明1. 成员内部类2. 局部内部类1)局部内部类的特点2)如何使用局部内部类3. 匿名内部类四、代码块一、抽象类1. 概念用abstract关键字来修饰一个类,这个类叫做抽象类。  用abst

2020-08-19 08:55:55 189

原创 第八天 Java 面向对象之object类、拆箱与装箱、static 、final

一、Object类1. object类的使用2. object 主要结构3. == 与 equal区别二、包装类(Wrapper)的使用--拆箱与装箱1. 拆箱与装箱实例三、static1. 基本概念2. 使用方式3. 实例4. 单例模式单例模式的优点:应用场景四、fianl1.概念2. 使用方式

2020-08-18 15:58:34 495

原创 第七天 Java面向对象之三大特征

ava面向对象三大特征一、封装1. 为什么需要封装?封装的作用和含义?2. 基本概念3. 实现流程4. 实例5. 四个权限修饰符二、继承1. 基本概念2. 作用3. 规则及注意事项4. 方法的重写(Override)(1)基本概念(2)方法重写的原则(3) 注意事项(4)访问控制三、多态1. 基本概念2. 语法格式3. 多态的效果4. 引用数据类型之间的转换instanceof5. 实例与应用虚拟方法调用(Virtual Method Invocation)

2020-08-18 14:43:33 207 1

原创 第六天 Java面向对象之方法

Java面向对象之方法 一、构造方法(构造器)二、方法的重载三、可变数的形参四、递归方法五、UML 类图六、this关键字七、 import、packageMVC设计模式JDK中主要的包介绍

2020-08-18 10:25:14 151

原创 第五天 Java面向对象之概述及特征

Java面向对象之概述及特征一、面向对象概念1.1 什么是对象?1.2 什么是面向对象?1.3 什么是面向对象编程?1.4 面向对象与面向过程二、类和对象1. 类和对象概念2. 类的声明(1)类定义的语法格式(2)成员变量定义的语法格式(3) 对象的创建1)语法格式2)注意事项3)匿名对象(4) 引用的定义1)基本概念2)语法格式三、对象的使用1. 对象的生命周期2. 对象的创建使用的内存解析实例化四、类的成员1. 成员变量属性2. 变量2.1 变量的分类例如:3.方法3.1 语法格式3.2 方法的详解(1

2020-08-18 09:06:12 220

原创 第四天 Java 数组与排序

数组与排序一、 数组1.数组的常见概念二、一维数组1.1 一维数组的声明方式:1.2 一维数组的初始化:1. 动态初始化2. 静态初始化1.3 一维数组内存解析1.4 随机数的产生三、多维数组的使用1.二维数组[][]:数组中的数组2. 二维数组内存解析四、数组中常见算法1. 二分查找法2. 排序算法1)排序算法分类:内部排序和外部排序。2) 十大内部排序算法3) 算法5大特征4) 排序实质:5)各种内部排序方法性能比较6)排序算法的选择五、数组工具类的使用一、 数组数组(Array),是多个相

2020-08-17 18:02:22 223

原创 第三天 Java基本语法(流程控制)

Java基本语法 (流程控制)分类一、顺序结构二、分支结构1)if - else2)switch-caseswitch语句有关规则switch和if语句的对比三、循环控制1. 循环语句分类2. 循环语句的四个组成部分3. for循环4. while循环5. do-while循环四、break和continuecontinue 语句分类顺序结构程序从上到下逐行地执行,中间没有任何判断和跳转。分支结构根据条件,选择性地执行某段代码。有if…else和switch-case两种分支语句。循环结构

2020-08-17 17:13:06 92

原创 第二天 Java基本语法(变量与运算符)

Java基本语法(变量与运算符)一、 关键字二、标识符2.1 标识符命名规则2.2 Java中的名称命名规范:三、变量3.1 变量的概念:3.2 变量数据类型**注意:**四、运算符“&”和“&&”的区别:三元运算符:运算符优先级:一、 关键字关键字(keyword)的定义和特点定义:被Java语言赋予了特殊含义,用做专门用途的字符串(单词)特点:关键字中所有字母都为小写官方地址: https://docs.oracle.com/javase/tutorial/java/n

2020-08-17 16:55:26 173

原创 第一天 java 常识与搭建

第一天 java 常识与搭建前言:为什么学习Javase一、计算机常识1.计算机语言2.软件开发介绍软件开发常用的DOS命令硬件软件二、 Java 常识1、java 等级2、java应用领域三、Java程序运行机制及运行过程1、Java语言的特点特点一:面向对象特点二:健壮性特点三:跨平台性2、Java两种核心机制1) 核心机制—Java虚拟机2)核心机制—垃圾回收四、java环境安装与配置1、什么是JDK,JRE五、java的第1个小程序1. 编写java源码,打印Hello World2. java是如

2020-08-17 16:36:28 227

原创 Avatar hadoop HA

Avatar hadoop HA (高可用)一.NameNode 、standbyNameNode 与 NFS二.故障总结1. 启停 standbyNameNode1)停止 standby2)启动 standby3)关注一下日志中是否有报错4)确认checkpoint是否正常完成2. Nfs故障导致的snn down问题恢复:1)问题:2)处理办法:3.NameNode重启流程(不中断服务)1)提...

2020-01-08 22:43:12 61

原创 Linux shell

shell一. Shell概述二. Shell解析器三. Shell脚本入门四. Shell中的变量

2019-11-12 10:29:07 770

原创 kafka

Kafka一 .概述1. 背景2. 概念3. 架构和原理4. 使用场景二、Kafka搭建部署1. 安装的前期准备2. kafka的搭建三、Kafka的核心概念1. message 消息2. producer 生产者3. broker 代理节点,代理缓存4. topic5. partition6. Replication副本7. Consumer消费者8. Zookeeper

2019-11-03 12:06:34 823 3

原创 HBase

HBase一 .概述一 .概述

2019-10-30 13:47:39 1851 5

原创 spark Streaming

spark Streaming一 .概述1. Spark Streaming原理2. Spark Streaming作业流程3.Spark Streaming 与 Strom3.1 处理性能对比3.2 架构对比3.3 模型对比3.4 异同4. 数据流(离散数据流)4.1 DStream特点5 数据源6 Spark Streaming 读取外部数据6.1 原理6.2 步骤6.3 创建 Streami...

2019-10-26 11:11:44 985

原创 hive on spark

hive on Spark一. 配置二. hive三种模式1、内嵌Derby方式2.Local方式3.Remote方式 (远程模式)三. spark sql 远程连接(thriftserver -- beeline)2 .spark-sql3.scala操作spark-SQL四 .spark on hive(HiveServer 2)1. HiveServer 22. beline3. Sp...

2019-10-15 18:39:57 7224

原创 hive

Hive 一 . hive1. 概述1.2. 组成架构(运行流程)1.3. 特点4. Hive和数据库的区别二、Hive的搭建2.1. 版本的选择2.2. 步骤2.3. 软件的基本操作2.3.1. 进入hive2.3.2. 操作2.3.3. 退出2.3.4. hive对本地文件数据进行表的映射操作2.3.5. 转移元数据的存储路径2.3.6. metastore的设置方式 :元数据2.3.7. 设...

2019-10-15 17:04:02 27241 15

原创 spark Sql

spark sql一.概述1 spark历史2 Spark-SQL 概述2.1 特点2.2 作用2.3 Spark SQL架构图3 Dataset演进历史3.1 RDD3.1.1 优点3.1.2 缺点3.2 DataFrame3.2.1 优点3.2.2 缺点3.2.3 核心特征3.3 Dataset3.3.1 区别3.3.2 特点4 SparkSQL API4.1创建SparkSession4.2...

2019-10-15 15:35:56 21863 5

原创 spark core 作业调度

图片一. 概念二.流程三. Spark运行架构具有以下特点一. 概念一个Application由一个Driver和若干个Job构成,一个Job由多个Stage构成,一个Stage由多个没有Shuffle关系的Task组成(多个RDD算子操作)stage:宽窄依赖划分当执行一个Application时,Driver会向集群管理器申请资源,启动Executor,并向Executor发送应...

2019-10-12 17:03:49 250

原创 shuffle过程详解(spark与mr)

spark-shuffle与MapReduce shuffleMR shuffle1、map端2、reduce端配置调优map端的调优属性:reduce端的调优属性spark shuffle一.定义二.演变三.Hash Shuffle V1有多少个reduce任务就会产生多少个中间文件(一个task--->所产生的文件数量=== reduce task数量)Hash Shuffle V1 过...

2019-10-12 16:42:21 1581

原创 RDD

RDD<1> 概述一. 什么是RDD二. spark 编程模型1. DataSource2. SparkContext3. Diver(1)SparkConf(2)SparkEnv(3)DAGScheduler(4)TaskScheduler(5)ScheduleBackend二. RDD属性RDD的五个特征包含四个函数和一个属性:1. 一组分片(Partition)分片2. 一个计算...

2019-10-10 11:38:29 13745 5

原创 Maven 安装配置

Mavenmaven1. maven的安装配置:1)下载maven2) 解压安装3) 配置环境量2.建立一个项目3.建立完成后4.书写项目(1) 写pom.xml (所要用的jar )(2) 编写项目5.导成jar包6. 原始导入jar 包maven1. maven的安装配置:1)下载mavenhttp://mirror.bit.edu.cn/apache/maven/maven-3/注...

2019-10-09 09:55:58 153

原创 spark 安装部署与介绍

spark spark 概述一. spark和hadoop二. 应用常景和解决生态系统组件应用场景Spark执行任务流程图三. Spark安装四. Spark部署模式1、单机本地模式(Spark所有进程都运行在一台机器的JVM中)2、伪分布式模式 (在一台机器中模拟集群运行,相关的进程在同一台机器上)。3、分布式模式包括:Spark自带的 Standalone、Yarn、Mesos。3.1 ...

2019-10-09 09:45:59 8370

原创 scala 详细

scalascala安装scala 使用方式函数的声明总结编译和执行getter和setter主辅构造器1.主构造器2.多辅构造器总结伴生与单例对象单例对象:伴生对象总结Apply和UpDateapplyupdate总结继承和特质(Trait=Java中的interface)继承--extends特质 trait函数式编程1、样例类案例2、模式匹配常量匹配类型匹配Array匹配模式匹配Option...

2019-10-08 08:17:13 380

原创 Flume

Flume 总结参数配置详解概述Flume数据的传输过程SourcesNetCat SourceAvro SourceExec SourceSpooling Directory SourceTaildir SourceChannelsFile ChannelSinksLogger SinkHDFS SinkAvro SinkKafka Sink案例汇聚者 (collect.conf)收集者(pro...

2019-10-07 12:26:50 8010 2

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除