jsperlee-CSDN博客

原创 linux安装Zeppelin

linux安装Zeppelin1、官网下载安装包。地址：http://www.apache.org/dyn/closer.cgi/zeppelin/zeppelin-0.8.1/zeppelin-0.8.1-bin-all.tgz2、上传安装包至服务器并解压。tar -zxvf zeppelin-0.8.1-bin-all.tgz -C apps3、进入目标文件夹并查看文件目录[hadoop@hadoop112] cd apps/zeppelin-0.8.1-bin-all[hado

2021-03-26 13:21:43 404

原创 Kubernetes 容器集群管理系统

1、Kubernetes 和相关组件的介绍Kubernetes 是 Google 开源的容器集群管理系统，基于 Docker 构建一个容器的调度服务，提供资源调度、均衡容灾、服务注册、劢态扩缩容等功能套件。基于容器的云平台Kubernetes 基于 docker 容器的云平台，简写成： k8s 。openstack 基于 kvm 虚拟机云平台。官网：https://kubernetes.io/Kubernetes 的架构设计图：1、master： kubernetes 管理结点2、

2020-07-31 01:59:11 986

原创 linux下sftp服务环境的搭建

1.检查openssh 的版本注意：版本必须大于4.8p1，低于的这个版本需要升级。2、创建一个sftp用户组[root@hadoop113 ~]# groupadd sftp[root@jasperlee ~]# useradd -g sftp -M sftp # -g 指定用户所属组，必须已经存在，-s /sbin/nogin 禁止ssh登录 -M 不要自动创建用户的宿主目录 s...

2020-05-08 00:22:44 383

原创 Hive基础知识

Hive 简介1、什么是 HiveHive 由 Facebook 实现并开源，是基于 Hadoop 的一个数据仓库工具，可以将结构化的数据映射为一张数据库表，并提供 HQL(Hive SQL)查询功能，底层数据是存储在 HDFS 上。Hive的本质是将 SQL 语句转换为 MapReduce 任务运行，使不熟悉 MapReduce 的用户很方便地利用 HQL 处理和计算 HDFS 上的结构化...

2020-04-08 15:38:53 414

原创 Hadoop 高可用集群安装

Hadoop HA 安装为什么会有 hadoop HA 机制呢？HA：High Available，高可用在Hadoop 2.0之前,在HDFS 集群中NameNode 存在单点故障 (SPOF：ASingle Point of Failure)。对于只有一个 NameNode 的集群，如果 NameNode 机器出现故障(比如宕机或是软件、硬件升级)，那么整个集群将无法使用，直到Nam...

2020-02-06 20:20:44 149

原创 Hadoop 配置机架感知

HDFS 集群的机架感知背景Hadoop 的设计目的：解决海量大文件的处理问题，主要指大数据的存储和计算问题，其中，HDFS 解决数据的存储问题；MapReduce解决数据的计算问题。Hadoop 的设计考虑：设计分布式的存储和计算解决方案架构在廉价的集群之上，所以，服务器节点出现宕机的情况是常态。数据的安全是重要考虑点。HDFS 的核心设计思路就是对用户存进 HDFS里的所有数据都做冗...

2020-02-06 20:20:15 448

原创倒排索引

倒排索引概念倒排索引（英语：Inverted index），也常被称为反向索引、置入档案或反向档案，是一种索引方法，被用来存储在全文搜索下某个单词在一个文档或者一组文档中的存储位置的映射。它是文档检索系统中最常用的数据结构。通过倒排索引，可以根据单词快速获取包含这个单词的文档列表。倒排索引主要由两个部分组成：“单词词典”和“倒排文件”。　倒排索引倒排索引有两种不同的反向索引形式：　　一条...

2020-02-04 22:17:55 224

原创 map的join

map端的join想做mapjoin,保证map端可以一次拿到两个表的数据map()一行调用一次只能拿到一个表的一行数据同时还需要获取另一个表的全部数据问题：如何获取另一个表的数据* map端执行join* 1.先将其中一个表的数据加载到每个运行maptask的节点的缓存中（本地）* job.addCacheFile(new URI(""))* 2.在mapper的setup中...

2020-02-04 10:52:10 531

原创 reduce的join

reduce-joinjoin过程在reduce端进行join将两个表中相同的id的数据拼接在一起拼接的过程在reduce端进行a:1 zs b:1 45想在reduce端拼接这个数据保证reduce端能够接受到的数据中a:1 zs b:1 45在一组相同的关联键的数据被分到一组map端key：两个表的关联键reduce端接受的数据相同关联建的两个表中的数...

2020-02-03 22:01:45 489

原创 mapreduce的shuffle

shuffle的环形缓冲区map----shuffle过程—reduce元数据：描述原始数据的数据原始数据在缓冲区的位置1）分区信息2）原始数据key的起始位置3）原始数据value的起始位置4）value的长度信息长度是固定的（4 * 16）原始数据：序列化的数据 map输出的key 、value的键值对环形缓冲区 byte []缓冲区中：分界线辨识元...

2020-02-03 09:14:29 479

原创 mapreduce的combiner

优化组件combiner1、 shuffle必经：分区、排序、分组combiner：优化过程combiner的作用;对每一个maptask的输出做一个聚合达到的效果：减少了shuffle过程的数据，减少reduce端处理的数据，提升总体性能combiner 就是帮助reduce在map端提前做了一个数据预处理，减少shuffle过程中的数据量2、 combiner的逻辑和re...

2020-02-01 23:53:22 257

原创 reducetask的并行度

reducetask的并行度//指定reducetask的个数job.setNumReduceTasks(4); 参数决定的默认值是1当有多个reducetask的时候，每一个reducetask的数据如何分配的，由分区算法决定1、默认的分区算法mapkey.hash % numReduceTask的个数;只需要设置reduecetask的个数，分区数===reducetask的...

2020-02-01 09:14:07 538

原创 mapreduce的自定义分区

分区分区与reducetask的并行度有关reducetask：运行reduce类的任务，成为reducetaskreducetask的并行度是指一个job中reducetask运行的个数默认的reducetask的个数：默认值是1，reducetask只执行一个< property >< name>mapreduce.job.jvm.numtasks&lt...

2020-02-01 08:30:42 369

原创 reudece中的坑

reduce中的迭代器的坑1）迭代器中的每一个值和key是一一对应的2）这个迭代器职能迭代一次迭代器是指针操作，每次迭代完成，指针就跳到这一组的最后了3）reduce端 key(一个内存地址)和values（所有的value都用一个内存地址）使用了两个对象jvm的对象重用解决方案：重新创建对象接收即可Stu s = new Stu(key.getCourse(),key.getN...

2020-01-29 22:36:37 170

原创 mapreduce的自定义分组

默认分组默认情况下的分组和排序的规则是一样的，他们调用的都是compareTo()方法。排序：compareTo()返回值调整数据顺序排序规则相同的会排在一起分组：compareTo()调用的是返回值是否为0返回值为0的为0的全部为一组返回值不为0的为新的组底层实现: 调用一个类 WritableComparetor 是一个普通类/*分组按照map输出的key（序列化...

2020-01-29 21:51:46 739

原创 CRC文件校验

CRC文件校验文件在下载的时候，除了需要下载的文件在外，生成一个crc的文件。crc校验文件作用：用于校验下载的文件数据是否是完整的。校验数据的完整性如何校验的：数据的实际的块存储目录：/home/hadoop/data/hadoopdata/dfs/data/current/BP-1178107398-192.168.2.111-1578828981899/current/fin...

2020-01-28 14:24:06 1643

原创 mapreduce的自定义排序

默认排序：map ------shuffle(排序–>分组)-----reduce 在shuffle过程中，先按照map输出的key进行排序。如果key是数值类型，按大小排序如果key是字符串类型，按照字典顺序升序排在按照map输出的key进行分组运用shuffle过程中的排序：想要运用shffle过程中的排序，则排序字段为map输出的key。自定义排序----二次排...

2020-01-28 13:34:23 1168

原创 mapreduce的自定义类

自定义类1）需要实现一个接口：Writable2）需要实现两个抽象方法：write() 序列化ReadFields() 反序列化注意：自定义类不能放在map输出的key的位置，其他位置都可以。案例：package com.lee.define;import java.io.IOException;import org.apache.hadoop.conf.Confi...

2020-01-28 10:31:17 478

原创 maptask的并行度

maptask的并行度maptask：执行map阶段的任务称为maptask。并行度：maptask一起执行的个数换句话说在一个job中就是maptask运行的个数。maptask运行的并行度：底层的数据如何存储的：分块多副本存储的300M文件blk1:0-127Mblk2:128-255Mblk3:256-300Mmaptask运行的个数和数据的大小有关一个ma...

2020-01-28 08:07:09 512

原创 MapReduce基础知识

1、什么是 MapReduce首先让我们来重温一下 hadoop 的四大组件：HDFS：分布式存储系统MapReduce：分布式计算系统YARN：hadoop 的资源调度系统Common：以上三大组件的底层支撑组件，主要提供基础工具包和 RPC 框架等。MapReduce 是一个分布式运算程序的编程框架，是用户开发“基于 Hadoop 的数据分析应用”的核心框架。MapReduce...

2020-01-24 08:54:24 482

原创 kafka消息队列

JMS 规范是什么？JMS 的基础JMS 是什么：JMS 是 Java 提供的一套技术规范，即 Java 消息服务（Java Message Service）应用程序接口。是一个 Java 平台中关于面向消息中间件的 API。用于在两个应用程序之间或分布式系统中发送消息，进行异步通信。Java 消息服务是一个与具体平台无关的 API。JMS 干什么用：用来异构系统集成通信，缓解系统瓶颈...

2020-01-05 10:38:04 577

原创 Linux 条件测试语句和if流程控制语句的使用

Read命令1 定义Read作用从键盘读入数据，赋给变量参数用法read answer 从标准输入读取一行并赋值给变量answer。read first last 从标准输入读取一行，直至遇到第一个空白符或换行符，把用户键入的第一个词存到变量first中，把该行的剩余部分保存到变量last中。read –s passwd 将你输入的东西隐藏起来，值赋给passwd。read –...

2019-11-21 23:10:09 245

原创 ZooKeeper的两大核心（多个节点间的数据一致性问题）

1. 文件系统：zk启动客户端的命令：zkCli.sh[zk: localhost:2181(CONNECTED) 0] 客户端操作界面1)zk的文件系统同linux的文件系统格式的从 /开始的。2）对于zk来说文件系统只有一种访问方式，绝对路径访问，没有相对路径访问的，所有访问必须从 /开始。3）zk中没有目录的概念也没有文件的概念里面只有节点的概念 znode ，这...

2019-11-14 10:51:08 1083

原创分布式一致性的相关理论

1. 分布式与集中式的区别：分布式一致性：多个节点之间数据的一致性问题。集中式的数据管理中：通过事务保证一致性的。2. CAP理论：2000年，cap理论绝对理想状态的一个理论：C：Consistency，一致性：多个副本保持一致，这里的指的就是强一致性，副本个数越多，强一致越难保证的，只有一个副本的时候，一致性最好保证。一致性按照严格程度分|实时性要求分：强一致性...

2019-11-14 10:26:11 160

原创 Linux shell 基础知识

什么是shell?Shell是一个命令解释器，它在操作系统的最外层，负责直接与用户进行对话，把用户的输入解释给操作系统，并处理各种各样的操作系统的输出结果，输出到屏幕反馈给用户。这种对话方式可是交互也可以是非交互式的。什么是shell脚本？我们把原来linux命令或语句放在一个文件中，然后通过这个程序文件去执行时，我们就说这个程序为shell脚本或shell程序；我们可以在脚本中输入...

2019-10-16 20:22:55 403

原创 Redis 高阶知识

持久化1、RDB:Redis Database默认持久化方式,将内存数据隔固定时长存储到磁盘文件。执行原理：1) fork子进程,父进程和子进程2) 父进程处理client连接;子进程将数据库内容存储到磁盘文件;创建snapshot(共享信息),子进程处理的是snapshot的数据,写入到临时文件3) 当子进程将临时文件写入完成，关闭子进程。持久化策略：备份文件名称：备份...

2019-10-07 00:30:56 174

原创 Redis 基本知识

nosql1、什么是nosql为了解决高并发、高可用、高可扩展，大数据存储等一系列问题而产生的数据库解决方案，就是NoSql。NoSql，叫非关系型数据库，它的全名Not only sql。它不能替代关系型数据库，只能作为关系型数据库的一个良好补充。分类1、键值(Key-Value)存储数据库相关产品： TokyoCabinet/Tyrant、Redis、Voldemort、B...

2019-10-04 07:37:25 131

原创 HDFS 原理解析

HDFS 工作机制概述1、HDFS 集群分为两大主要角色：namenode、datanode (secondarynamenode 和 client)。2、namenode 负责管理整个文件系统的元数据，并且负责响应客户端的请求。3、datanode 负责管理用户的文件数据块，并且通过心跳机制汇报给 namenode。4、文件会按照固定的大小(dfs.blocksize)切成若干块后分...

2019-09-24 11:02:49 245

原创 HDFS 核心设计

Hadoop 心跳机制（heartbeat）1、 Hadoop 是 Master/Slave 结构，Master 中有 NameNode 和 ResourceManager，Slave中有 Datanode 和 NodeManager。2、 Master 启动的时候会启动一个 IPC（Inter-Process Comunication，进程间通信）server 服务，等待 slave 的链...

2019-09-24 09:40:34 99

原创 HDFS 基础入门

HDFS前言HDFS：Hadoop Distributed File System Hadoop 分布式文件系统，主要用来解决海量数据的存储问题。设计思想分而治之：将大文件，大批量文件，分布式的存放于大量服务器上。以便于采取分而治之的方式对海量数据进行运算分析。在大数据系统架构中的应用为各类分布式运算框架（MapReduce，Spark，Tez，Flink，…）提供数据存储...

2019-09-23 18:02:54 168

原创 Hadoop 集群搭建

Hadoop 集群搭建基础集群环境准备1.、修改主机名在 root 账号下用命令：vi /etc/sysconfig/network或者如果配置了 hadoop sudo 权限，则在 hadoop 登录情况下使用命令：sudo vi /etc/sysconfig/network。2、设置系统默认启动级别在 root 账号下输入 vi /etc/inittab，改默认启动级别 5，...

2019-09-23 09:05:41 127

原创 Hadoop 介绍

数据1、数据(data)是事实或观察的结果，是对客观事物的逻辑归纳，是用于表示客观事物的未经加工的的原始素材。2、数据可以是连续的值，比如声音、图像，称为模拟数据。也可以是离散的，如符号、文字，称为数字数据。在计算机系统中，数据以二进制信息单元 0,1 的形式表示。大数据1、指的是传统数据处理应用软件不足以处理（存储和计算）它们的大而复杂的数据集。最基本的衡量：大小数据量最小的...

2019-09-22 13:21:43 342

原创 Mysql 基础知识

数据和数据库数据：客观事物的符号表示。数据分类：结构化数据: 通过统一模式(方式)进行描述和管理。非结构化数据: 数据结构不规则或不完整，没有预定义的数据模型，不方便用数据库二维逻辑表来表现的数据。半结构化数据: 介于两者之间(xml)。数据库(database DB): 按照数据结构存储数据的仓库数据库管理系统**(database management syst...

2019-09-21 14:09:15 160

原创 Linux 定时任务

crontab概念计划任务在Linux的体现主要分为at和crontab。1、at：通过at命令安排任务在某一时刻执行一次。2、crontab：通过crontab 命令，我们可以在固定的间隔时间执行指定的系统指令或 shell script脚本。时间间隔的单位可以是分钟、小时、日、月、周及以上的任意组合。这个命令非常适合周期性的日志分析或数据备份等工作。命令服务管理crontab...

2019-09-20 17:11:09 110

原创 Linux 免密登录、查找

SSH免密登录配置SSH概念SSH为Secure Shell（安全外壳协议）的缩写，简单说，SSH只是一种网络协议，用于计算机之间的加密登录，很多ftp、pop和telnet在本质上都是不安全的，因为它们在网络上用明文传送口令和数据，别有用心的人非常容易就可以截获这些口令和数据。而SSH就是专为远程登录会话和其他网络服务提供安全性的协议。SSH是由客户端和服务端的软件组成的服务端是一个守...

2019-09-20 15:58:37 860

原创 Linux 软件安装

软件安装二进制发布包软件已经针对具体平台编译打包发布，只要解压，修改配置即可。RPM发布包软件已经按照RedHat（Redhat PackageManager）的包管理工具规范RPM进行打包发布，需要获取到相应的软件RPM发布包，然后用rpm命令进行安装。常用命令：安装包：rpm -ivh 包名参数：-i ：安装的意思-v ：可视化-h ：显示安装进度另外在...

2019-09-20 15:42:52 159

原创 Linux 进程管理

进程管理进程概念：进程是操作系统中非常重要的一个概念，进程是程序的执行过程，相对于程序，进程是动态的，在linux系统中，它与用户权限相关，程序与进程并没有一一对应，一个程序可能对应多个进程。子进程与父进程：一个进程产生另外一个进程，产生的进程称为子进程，生成另外一个进程的进程称为父进程。上图描述：父进程复制自己的地址空间（fork）创建一个新的（子）进程结构。每个新进程分配一个...

2019-09-20 14:47:45 129

原创 Linux-系统、时间管理

系统管理挂载挂载介绍：挂载是一个非常重要的功能，使用非常频繁。它指将一个设备（通常是存储设备，可以挂载光盘、硬盘、磁带、光盘镜像文件等）挂接到一个已存在的目录上（这个目录可以不为空，但挂载后这个目录下以前的内容将不可用）。挂载是一个非常重要的功能，使用非常频繁。它指将一个设备（通常是存储设备，可以挂载光盘、硬盘、磁带、光盘镜像文件等）挂接到一个已存在的目录上（这个目录可以不为空，但挂载后这个...

2019-09-20 10:53:53 136

原创 Linux vi/vim编辑器

1、概述：命令模式（command mode）、或者叫一般模式，插入模式（insert mode）、或者叫编辑模式底行模式（last linemode）、或者叫命令行模式2、最基本用法1、首先会进入“一般模式”，此模式只接受各种命令快捷键，不能编辑文件内容2、按i键，就会从一般模式进入编辑模式，此模式下，敲入的都是文件内容3、编辑完成之后，按Esc键退出编辑模式，回到一般模...

2019-09-19 18:05:07 108

原创 Linux 基础知识

1、初识Linux：Linux系统是一套免费使用和自由传播的类UNIX操作系统（主要用在服务器上），是一个基于POSIX和UNIX的多用户、多任务、支持多线程和多CPU的操作系统。它能运行主要的UNIX工具软件、应用程序和网络协议。它支持32位和64位硬件。Linux继承了UNIX以网络为核心的设计思想，是一个性能稳定的多用户网络操作系统。UNIX：操作系统，是美国AT&T公司...

2019-09-19 17:42:19 296

空空如也

空空如也