阿东在路上-CSDN博客

一、问题描述集群cdh1，cdh2和cdh3都已经配置好ssh和jdk，但是，在cdh2中运行ssh cdh1 "jps"命令却报错[root@cdh2 sh]# ssh cdh1 “jps”bash: jps: command not found然后，专门试验一下ssh到cdh1有无问题，验证没问题。[root@cdh2 softwares]# ssh cdh1Last login: Sun Mar 15 01:09:57 2020 from 192.168.0.109[root@cdh1

2020-07-22 22:01:17 543

原创 Hbase概述

HBase是一个高可靠性、高性能、面向列、可伸缩的分布式存储系统，利用HBASE技术可在廉价PC Server上搭建起大规模结构化存储集群。HBase的目标是存储并处理大型的数据，更具体来说是仅需使用普通的硬件配置，就能够处理由成千上万的行和列所组成的大型数据。1.2 Hbase特点1）海量存储Hbase适合存储PB级别的海量数据，在PB级别的数据以及采用廉价PC存储的情况下，能在几十到百毫秒内返回数据。这与Hbase的极易扩展性息息相关。正式因为Hbase良好的扩展性，才为海量数据的存储提

2020-06-26 01:29:19 349

转载抽象类和接口

前言抽象类（abstract class）和接口（Interface）是Java语言中对于抽象类定义进行支持的两种机制，赋予了Java强大的面向对象能力。二者具有很大的相似性，甚至可以相互替换，因此很多开发者在进行抽象类定义时对于abstractclass和Interface的选择显得比较随意。其实，两者之间还是有很大的区别的。本文将对它们之间的区别进行剖析，并提供一个在二者之间进行选择的依据。抽象类是什么？本文中的抽象类表示的是一个抽象体，并非直接从abstract class翻译而来

2020-06-19 22:36:13 219

原创 java对象和类的初始化过程

类的成员：（1）属性（2）方法（3）构造器（4）代码块代码块：为属性初始化1.语法格式【修饰符】class 类名【extends 父类】 { 非静态代码块 } static{ 静态代码块 }2.执行的特点（1）在创建的时候自动执行，每创建一个对象就执行一次，如果有多个代码块，就依次执行（2）先于构造器执行（3）非静态代码块与属性的显示赋值，按顺序依次执行（4）如果创建子类的对象，会先执行父类的（非静态代码块，属性以及构造器）...

2020-06-19 22:27:42 230

原创类型转换

基本数据类型转换向上转型：自动转型 byte--short--char--int--long--float--double 向下转型：强制转型，会有精度损失或溢出 double--float--long--int--char--short--byte 引用数据类型，编译时类型（父）向上转型：当出现多态引用时，子类的对象就会向父类的对象转型一旦向上转型，那么通过父类的变量就无法调用子类“扩展”的方法向下转型：当把存在父类变量中的对象，重新..

2020-06-16 17:00:26 153

原创 java多态数组和多态参数

面向对象的特征：封装，继承，多态，抽象方法的多种多态：1：方法的重载和方法的重写重载：同一个功能在同一个类中有多种形式。重写：同一个功能在多个子类中，形式不同。2：对象的多态性对象有两种类型:（1）编译时类型；（2）运行时类型；前提条件：（1）：类的集成关系；（2）多态应用；（3）：方法的重写表现特性：即编译时按照父类编译，运行时按照子类运行（子类重写的方法体）举例：创建一个父类A，两个子类B,C，测试类TestA，TestB举例1：创建多态对象数组举例2：多态参

2020-06-16 16:25:47 887

原创 this和super分别代表什么意思

java中this关键字代表对象本身可以理解为指代当前的对象，它可以调用当前对象的属性、方法和构造方法，一般情况下可以省略，必须使用this的地方是区分出现名字重复的参数和属性（类属性和方法的形参）。super相当于是指代当前的对象的父类，调用父类的属性、方法和构造方法super和this有什么区别？this指代当前对象，super指代父类对象this可以调用自身的属性和方法还有父类的属性和方法super只能调用父类的属性和方法this可以调用当前类的其它构造方法，super调用父.

2020-06-16 15:22:59 2925

转载构造器的作用

最简单直白的话，当你要new一个对象的时候，必须要有构造器才能new出来，类里面默认有无参的构造器，看不到的，当我们要创建一个有参构造的时候，最好也把无参构造写出来。作用：java中构造方法指的是：与类名相同，无返回类型的方法，参数可以为空，也可以带参数。比如一个 Point 类，private Point(){}这个就是无参数的构造方法。private Dao(int x0, int y0){}这个就是带参数的构造方法。作用：用来初始化 java 类，提供类的初始化和实例化，以便调用。如果想

2020-06-14 23:08:18 1112

原创 MySql基础架构和日志系统

select * from T where ID>2;大题来说Mysql可以分为Server层和存储引擎层.Server层包括连接器，查询缓冲，分析器，优化器，执行器，所有跨存储引擎的功能都在这层实现。引擎层是负责数据的写入和读取，其架构模式是插件式的，支持InnoDB，MyISAM，Memony等多个引擎，Mysql从5.5.5开始默认采用InnoDB引擎。连接器：连接管理以及权限认证。查询缓冲：查询命中则直接返回。分析器：词法分析，语法分析。优化器：执行计划生成，返

2020-06-12 21:29:58 202

原创 Hadoop权威指南（第4版）笔记一

Hadoop尽量在计算节点上存数据，以实现数据的快速访问，即数据本地化（data locatily）。MapReduce 三大设计目标：1：为只需要短短几分钟或数小时就能完成的任务设计。2：运行于同一个内部有高速网络连接的数据中心。3：数据中心的计算机都是可靠的，专门的硬件。Map任务的三种可能：a，本地数据，本地运行；即在存储有输入数据（HDFS中的数据）的节点运行map任务，无需使用宝贵的集群带宽资源，可获得最佳性能（数据本地化优化）。b，本地节点，本地机架运..

2020-06-11 16:18:32 293

原创 Sqoop实现HDFS与传统数据库数据导入导出

实现原理将导入或导出命令翻译成mapreduce程序来实现。在翻译出的mapreduce中主要是对inputformat和outputformat进行定制。安装1.机器配好Java和hadoop环境2.上传tar包到指定目录，并解压拷贝JDBC到lib下。mv sqoop-env-template.sh sqoop-env.sh3.修改配置文件执行命令：bin/sqoop list-databases --connect jdbc:mysql://hadoop102:330..

2020-06-10 15:33:44 301

原创 Linux查看性能命令

整机 1.top：查看系统性能主要查看cup，内存占用率以及负载，（如果三个负载数相加的平均值超过0.6则说明负载过大） 2.uptime：系统性能命令的精简版 CPU 1.vmstat -n 2 3：查看包括不限于CUP（一般 vmstat工具的使用是通过两个数字参数来定成的，第一个参数是采样的时间间数，单位是秒，第二个参数是采样的次数）- procsr：运行和等待CUP时间片的进程数，原则上1核的CPU的运行队列不要超过2，整个...

2020-06-08 00:09:57 1896

原创 liunx和win10下的主机映射关系文件

Linux（注意权限问题）-vim /etc/hosts添加主机-映射关系win101.进入C:\Windows\System32\drivers\etc （注意权限问题）2.打开hosts文件并添加一下内容：

2020-06-07 17:44:54 343

原创 Kafka消费者

消费方式 consumer采用pull（拉）模式从broker中读取数据。push（推）模式，优点：消息传递速度快；缺点：消息发送者主动发送数据，消息接收者被动接收消息，很难适应消费速率不同的消费者。很容易造成consumer来不及处理消息，典型的表现就是拒绝服务以及网络拥塞。而pull模式则可以根据consumer的消费能力以适当的速率消费消息。pull模式：优点：可以根据consumer的消费能力以适当的速率消费消息；缺点：如果kafka没有数据，消费者可能会陷入循环中，一直返回空数据。..

2020-06-07 10:33:43 167

原创 Kafka如何保证数据可靠性

数据可靠性保证正常情况下，为保证producer发送的数据，producer向Leader发送数据，leader收到后返回ack（acknowledgement确认收到），producer继续发下一条数据。如果等不到leader的ack回复，producer则在重复机制的作用下，向leader重复发送未成功发送的数据。这样便会产生两个问题。问题一：leader何时发送ack？解答：leader需要确保有follower与之同步完成才发送ack，因为这样才能避免在leader...

2020-06-06 23:10:43 417

原创 MapReduce工作流程

1图片来源尚硅谷大数据课程MapReduce流程一MapReduce流程二流程：1：MapTask收集从map（）方法写出的（k，v）对，由outputCollector收集写入环形缓冲区。2：环形缓冲区默认大小100M，内存占满80%开始反向，并不断溢写出本地文件，结果可能产生多个溢写文件。（环形缓冲区内实现快排，溢写出的文件均内部有序，第一次排序，算法：快排）3：环形缓冲区产生的多个溢写文件，通过Merge实现合并，第二次排序，算法：归并排序4：多个MapTask产生...

2020-06-06 17:34:15 534

原创 Zookeeper的选举机制

1）半数机制：集群启动必须有半数以上机器active，否则集群不启动。故集群中半数以上机器存活，集群可用。所以Zookeeper适合安装奇数台服务器。2）Zookeeper虽然在配置文件中并没有指定Master和Slave。但是，Zookeeper工作时，是有一个节点为Leader，其他则为Follower，Leader是通过内部的选举机制临时产生的。3）以一个简单的例子来说明整个选举的过程。假设有五台服务器组成的Zookeeper集群，它们的id从1-5，同时它们都是最新启动的，也就是没有历史

2020-06-06 11:36:12 403

原创 SQL语法笔记

1.ifnull(arg1,arg2)SELECT IFNULL(NULL,"11"); -> 11SELECT IFNULL("00","11"); -> 00判断if中的arg1是否为NULL，如果为NULL则输出arg2，否则输出本身。2.if(boolen,arg1,arg2)select if(money>0,money,0) from part即：money>0是选择money,否则取0；(boolen=true,输出arg1;flase,输出a

2020-06-05 21:23:48 133

原创查看多台机器jps的脚本

首先所有机器已经配通SSH免密登录在某台机器上创建jpsall,并打开。touch jpsallvim jpsall写执行脚本 #!/bin/bash# 执行jps命令查询每台服务器上的节点状态echo ======================正在查询集群节点状态====================#2 关闭hadoop102-hadoop104for i in hadoop102 hadoop103 hadoop104do echo ========

2020-06-01 17:41:15 510

转载 hive的四个by

1.order bycol_list：全局排序，默认为升序asc ,因此只有一个reducer,只有一个reduce task的结果，比如文件名是000000_0,会导致当输入规模较大时，需要较长的计算时间。如果指定了hive.mapred.mode=strict（默认值是nonstrict）,这时就必须指定limit来限制输出条数，原因是：所有的数据都会在同一个reducer端进行，数据量大的情况下可能不能出结果，那么在这样的严格模式下，必须指定输出的条数。对被排序列进行全排序...

2020-05-31 21:19:32 708

原创 Flume Agent内部原理及其三大组件

1.Agent内部原理工作流程：（1）数据通过Source采集进入Flume，Flume以通过Agent以事件的形式将数据从源头到目的地。（2）进入事件处理，Event为传输单元，由可选的header和载有数据的body（byte array）构成。（3）在agent可对数据进行粗步拦截，排除某些不采集的文件，文件类型。（4）Channel选择器，两种Channel Selector，一种是Replicating channel另一种是Multiplexing Channel...

2020-05-31 15:24:37 4405

原创 MapRedurce框架原理之InputFormat实例

1.TextInputFormat 是默认的FileInputFormat实现类。按行读取每条数据。key是存储该行在整个文件中的起始字节偏移量，（LongWriter类型）。value是该行内容，不包括终止符，（Text类型）。切片方法采用FileInputFormat的切片方法，（K，V）方法为LineRecordReader; 如： asdfdgagads asfsaggrh 切片后： (0,asdfdgagad...

2020-05-30 20:58:01 243

原创 flume入门

1. flume定义 Flume is a distributed, reliable, and available service for efficiently collecting, aggregating, and moving large amounts of log data. It has a simple and flexible architecture based on streaming data flows. It is robust and fault tol...

2020-05-26 17:33:38 279

原创 hive实操二统计上传视频最多的用户Top10以及他们上传的观看次数在前20的视频

video表结构user表结构需求分解查询上传视频最多的用户top10；将top10的数据表与video表join，得到上传视频的相关信息；将上述表信息对view进行排序并取前20；需求实现查询上传视频最多的用户top10； SELECT videos,uploader FROM gulivideo_user_orc ORDER BY videos DESC LIMIT 10 ; - [ ] 将top10的数据表与video表joi..

2020-05-21 20:53:24 907

原创 hive实操一统计视频观看数Top50所关联视频的所属类别Rank

表结构建表语句create table gulivideo_orc( videoid string, uploader string, age int, category array<string>, length int, views int, rate float, ratings int, comments int, relatedid array<string>)row.

2020-05-21 17:17:15 1113 1

原创 Hive安装及配置matestore文件到MYSQL

1：安装配置hive（1）：将准备好的hive文件上传到linux上指定的文件夹下。（2）：将tar包解压到指定文件夹下，这里指定/opt/module。（3）：修改配置文件。将hive-env.sh.template 改名为 hive-env.sh（2）：配置hive-env.sh配置HADOOP_HOME路径配置HIVE_CONF_DIR路径2：hive的数据存储...

2020-05-17 20:42:52 628

原创 CentOS6.9下mysql的完全卸载

检查系统下是否安装了mysql数据库。检查mysql服务是否开启，如果开启则关闭mysql服务，最后查看mysql服务状态，确认关闭。卸载mysql安装组件rpm -qa | grep -i mysql检查没有包即可。查找并删除MySQL相关的文件...

2020-05-02 16:27:59 334

原创 linux常用命令

linux常用命令11.删除类dd: 删除当前行（0：返回行首）ndd: 删除光标行往下n行(含光标行)内容dgg: 删除光标当前行及以上内容dG: 删除光标当前行及以下内容dH: 删除当前页面第1行至光标行p: 粘贴到光标下一行u: 撤销一次操作Ctrl + r: 反撤销（一次）...

2020-03-24 16:02:06 143

qq_40839450的博客

原创 Flink keyBy算子的分区规则

原创 spark connector部分更新写starrocks 出现磁盘暴涨

原创 Elastic 安装报错【3】

原创 Flink 中定义的 POJO 会使用什么序列化器，拒绝kryo

原创 flink 查ES报 java.lang.BootstrapMethodError: call site initialization exception 痛苦的解决

原创 Json 科学计数法法保存的大数，如何在转为bean时保存为常规数字

转载本地可执行，ssh远程报错