leader321-CSDN博客

原创搭建apache集群流程

Apache版本安装流程LUNIX#切换账号 #切换至个人账号，直接切换 su ACCOUNT #切换至root账号，需要输入密码#查看主机名 hostname#设置主机名 hostnamectl set-hostname slave01#网络配置 #打开网络配置文件 vi /etc/sysconfig/network-scripts/ifcfg-ens33 #以替换方式删除所有" :%s/\"//g IPADDR=192.168.xxx.xxx NETMASK=

2021-05-06 19:10:11 1011

原创数仓理论建模

数仓理论建模数据仓库数据仓库是一个面向主题的、集成的、非易失的且随时间变化的数据集合数仓的使用结构复杂业务数据库通常是根据业务操作的需要进行设计的，遵循3NF范式，尽可能减少数据冗余。这就造成表与表之间关系错综复杂。在分析业务状况时，储存业务数据的表，与储存想要分析的角度表，很可能不会直接关联，而是需要通过多层关联来达到，这为分析增加了很大的复杂度。举例：想要从门店的地域分布来分析用户还款情况。基本的还款数据在订单细节表里，各种杂项信息在订单表里，门店信息在门店表里，地域信息在地域表里，这就

2021-03-01 19:29:06 922

原创 Sql和NoSql

Sql (RDBMS：mySql)强一致：由锁和事务来保证数据的一致性锁：（共享锁|独占锁）默认查询是无锁，可以加共享锁 select ...lock in share mode/for update 增删改：自动加行锁（独占锁）事务（commit 落盘|rollback 回滚）ACID 事务开启（关闭自动提交） ACID： Atomic 原子性事务将多条操作语句封装在一起，不可拆分 Consistent 一致性事务操作前后相关数据一致（转账） Isolated 隔

2021-02-17 17:48:42 800

原创 Spark

Spark优势速度快基于内存数据处理，比MR快100个数量级以上（逻辑回归算法测试）基于硬盘数据处理，比MR快10个数量级以上易用性支持Java、Scala、Python、R语言交互式shell方便开发测试通用性一栈式解决方案：批处理、交互式查询、实时流处理、图计算及机器学习多种运行模式YARN、Mesos、EC2、Kubernetes、Standalone、LocalSpark技术栈Spark Core核心组件，分布式计算引擎Spark SQL高性能的基于Hadoop的S

2021-02-17 17:48:02 919 1

原创 error与Exception的区别

首先，Exception和Error都继承于Throwable类，在java中只有Throwable类型的实例才可以被抛出或者捕获，它是异常处理机制的基本组成类型。ExceptionException是java程序运行中可预料的异常情况，咱们可以获取到这种异常，并且对这种异常进行业务外的处理。Exception分为检查性异常和运行时异常。两者根本区别在于：检查性异常：必须在编写代码时，就显示的通知程序员必须处理，使用trycatch捕获java.lang.NullPointerException&

2021-01-18 10:52:57 866

原创 Spark Graphx：如何使用Pregel

关于如何使用Pregel（分布式图计算框架），这里我们可以用一个小例题来说明。需求说明求从0到任意点的最短路径（SSSP）实现思路初始化 Vertex 的 Message 为最大值将源点（0）的 Message 设为 0每步每个节点将自己目前的 Message 加上边的权值发送到相邻节点，每个节点聚合出自身所有消息的最小值当某一步当中一个节点Message 值无变化，该节点停止迭代具体实现val spark: SparkSession = SparkSession.builder()

2021-01-14 14:28:25 1063

原创 spark连接mysql,hive,hbase

创建项目Maven–>NEXTNew Project:Groupld :cn.kgc.hive Artifactld:spark_hive->NEXT->NEXT->FinshPom依赖<?xml version="1.0" encoding="UTF-8"?><project xmlns="http://maven.apache.org/POM/4.0.0" xmlns:xsi="http://www.w3.org/2001/XMLSc

2021-01-10 20:06:30 930

原创 java连接mysql，hive，hbase全解

创建项目Maven–>勾选Create from archetype–>maven-archetype-quickstart->NEXTNew Project:Groupld :cn.wxj.mysql Artifactld:java_mysql->NEXT->NEXT->Finsh导包（pom）点击Enable Auto Import自动导包在pom文件的properties里修改版本为1.8改为修改设置Project Structure-&g

2021-01-10 19:40:48 941

原创 Scala基础（一）

Scala入门Scala特点静态类型 Scala的变量声明后不允许改变类型 Scala所有变量和表达式的类型在编译时就已经完全确定强类型一个变量被指定了某个数据类型，如果不经过强制转换，那么它就永远是这个数据类型，也就是说不允许隐式类型转换 Scala没有提供Java中的强制类型转换，取代方法有对象名.asInstanceOf[XXX] 对象名.toXXX方法隐式转换(implicit关键字)多范式编程 -面向对象 Scala中一切值都是对象 Scala中去除了s

2021-01-07 19:06:46 767

原创 Scala-Array函数

++定义：def ++[B](that: GenTraversableOnce[B]): Array[B]描述：合并集合，并返回一个新的数组，新数组包含左右两个集合的内容,若类型不同合并之后一般为Array[Any]示例：val a = Array(1, 2)val b = Array(3, 4)val c = a ++ bprintln(c.mkString(",")) // 1,2,3,4++:定义：def ++:[B >: A, That](that: collection.

2020-12-30 12:25:26 1142

原创 Hive查询

SELECTselect用于映射符合指定查询条件的行SELECT 1;SELECT * FROM employee ;SELECT * FROM employee WHERE name!='Lucy' LIMIT 2;-- 起别名select ename as name, deptno dn from emp;CTE和嵌套查询-- CTE语法示例with a as (select * from employee),b as (select * from a)select * fr

2020-12-14 10:40:56 920

原创 Hive基础

Hive的基本概念hive是基于hadoop的数据仓库解决方案，是为了推广hadoop而产生，它可以将结构化的数据映射为数据表。Hive的优势与特点Hive客户端操作有两种客户端工具：Beeline和Hive命令行（CLI）有两种模式：命令行模式交互模式Hive数据类型#数据类型 #数据类型 java mysql hive #字符串 String char(n)/varchar(n)/text/... string/varchar(6553

2020-12-10 10:01:24 841

原创 MapReduce（更新中）

MapReduceMapReduce是一个分布式计算框架作用：将大型数据操作作业分解为可以跨服器执行的单个任务使用场景：需要大规模数据处理的场景每个节地处理存储在该节点的数据设计思想：移动数据不如移动计算，简化并行计算的编程模型MapReduce特点优点：不适用场景：难以实时计算(适合离线计算)(流式计算：一次处理一条数据)MapReduce实现WordCount...

2020-12-08 17:37:37 789

原创 mapreduce实例WordCount

需求：统计一个文件中每一个单词出现的总次数。案例数据：使用 idea 创建 maven 工程，添加依赖如下：pom.xml<?xml version="1.0" encoding="UTF-8"?><project xmlns="http://maven.apache.org/POM/4.0.0" xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance" xsi:schemaLocation="http:/

2020-12-08 17:26:30 816

原创 hadoop-yarn

分布式资源调度框架YARNyarnyarn工作机制yarnyarn架构(master/slaves)组件：ResourceManager(ApplicationManager | ResourceScheduler)NodeManagerApplicationmasterContaineryarn工作机制yarn

2020-12-07 20:13:16 766

原创 Zookeeper

Zookeeper数据结构

2020-12-07 13:39:33 743

原创 Hadoop

HDFSHadoop环境搭建HDFS架构原理HDFS基本文件操作命令Hadoop环境搭建HDFS架构原理HDFS基本文件操作命令

2020-12-02 19:27:22 850 1

原创 hadoop分布式环境搭建（持续更新中）

Hadoop运行环境搭建虚拟机环境准备准备一台虚拟机，操作系统centos7.x配置虚拟机的静态ip修改主机名为hadoop101并进行端口映射vi /etc/hostnamesinglevi /etc/hosts192.168.184.200 single—注意重启 reboot关闭防火墙systemctl stop firewalld.servicesystemctl disable firewalld.service配置时钟同步时间服务器配置（必须root

2020-11-30 11:35:11 808

原创 Java To Hive

Java 链接 Hive创建文件java2hive编辑文件BaseConfig类BaseDao类，result类Test类创建文件java2hive编辑文件在datasources.properties配置文件里driver = org.apache.hive.jdbc.HiveDriverurl = jdbc:hive2://192.168.184.200:10000/examusername = root//password hive没有，为空在log4j.properties日志文

2020-11-25 22:33:29 924

原创 hive函数（持续更新中）

一、数值计算1. 对数函数: logdouble log(double base, double a)说明:返回以base为底的a的对数例： select log(4,256) ；4.02.幂运算函数: powdouble pow(double a, double p)说明:返回a的p次幂例： select pow(2.1,0.5) ;1.4491376746189443.进制转换函数: convstring conv(bigint /string num, int from_ba

2020-11-11 23:51:32 1937

原创虚拟机linux配置

linux虚拟机基本配置修改主机名网络配置修改主机名//查看主机名 hostname//设置主机名 hostnamectl set-hostname 虚拟机名网络配置1.打开网络配置文件 vi /etc/sysconfig/network-scripts/ifcfg-ens332.用替换方式删除所有 [ " ] :%s/\"//g3.查看IP地址打开虚拟网络编辑器查看IP：192.168.184.xxx4.删除后单击“i”进入编辑模式

2020-11-11 19:36:55 311

原创 VMware Workstation Pro 创建虚拟机

目标创建一个虚拟机：single系统：CentOS-7-x86_64-DVD-1908.iso1.创建新的虚拟机2.硬件兼容选择–15.x3.点击稍后安装4.点击linux5.将虚拟机名称改为single，再指定虚拟机保存路径6选择处理器数和内核数（单核单线程选择1,1）7.设置虚拟机内存8g8.选择NAT9.选择推荐项10.创建新磁盘11.选择将虚拟机存储为单个文件，磁盘大小为20m12.选择虚拟机保存路径13.将声卡与打印机移除，选择新CD，使用ISO映像

2020-11-11 18:50:02 1571

原创多线程：线程的常用方法和线程池

线程线程：cpu调度的最小单位

2020-11-11 15:26:47 98

原创流

传输协议[IP][UDP]/[TCP]SMTP/UDP/TCP/fTP/HTTP[S]

2020-11-11 15:26:15 174

原创包装类

基本类型对应的包装类基本类型包装类型扩展方法 String String char Character boolean is = Character.isDigit(char c);c是否为数字/boolean is = Character.isLetter(char c);c是否为字符（不区分大小写） byte Byte short Short int Integet int val = Integer.parseInt(String str); l

2020-11-11 15:24:14 133

原创集合

集合常用数据类流线程

2020-11-11 15:22:15 153 1

原创 mysql

数据库关系型数据库 MySql，Oracle，SqlServer非关系型数据库 Redis，Kafka,RabbitMQmysql基本操作1.Mysql 基本命令1.登陆mysqlmysql -u 【username】-ppassword2.如何查看数据库show databases;3.切换数据库use 库名;4.查看所有表show 库名;5.查看表中的字段desc 表名;6.查看表里的数据select * from 表名;7.退出mysqlexit;数据库结构

2020-11-11 08:36:07 131

原创 ArrayList构造方法详细信息

流程1.新建一个project2.在建立两个 .class 文件List.class和ArrayList.class。//list.classpublic interface List<T> extends Iterable<T> { int size(); boolean isEmpty(); int indexOf(int index,T t); int indexOf(T t); int lastIndexOf(T t);

2020-10-26 19:39:19 250

原创封装，继承，多态

封装基本类型与引用类型//int a=5; int b=a;将变量a的值，拷贝一个给变量b，变量a与变量b是相互独立的；//int[] a={1}; int[] b=a;//将数组a引用的地址，拷贝一个副本给数组b，数组a与数组b相互关联，都指向同一个数组；//Student a=new Student();Stedent b=a;同数组object oriented programming //抽象：模具 //类：class类1.访问修饰符访问修饰符 [abstract/s

2020-10-19 13:59:37 136

原创初学Java（3）

一维数组创建一维数组数组元素类型数组名字[];数组元素类型[] 数组名字;int arr[];String []str;初始化一维数组int arr[] = new int[]{数组元素};int arr2[]={数组元素};二维数组创建二维数组数组元素类型数组名字[][];数组元素类型[][] 数组名字;int arr[][];String[][] str;初始化二维数组数组元素类型数组名[][]={数组中个元素的值};type arr[][]={valu

2020-10-07 10:20:28 75

原创 Java排序算法

排序算法冒泡排序选择排序插入排序希尔排序桶排序快速排序冒泡排序 for (int i = 0; i <arr.length-1; i++) { for (int j = 0,t; j < arr.length-i-1; j++) { if(arr[j]>arr[j+1]){ t=arr[j]; arr[j]=arr[j+1];

2020-10-07 10:08:18 113

原创 CSS

css基础知识选择器HTML页面引入css的三种方式选择器 1.ID选择器 2类选择器 - 无需唯一 - 选择性使用 - 组合使用 3.标签选择器 4.*{ ·· }#name{···} <div id="name"></div>.name{··} <div class="name"></div>li{··} <li>...</li>HTML页面引入css的三种方式

2020-10-02 18:13:14 113

原创初学java（2）

流程控制选择结构if控制语句嵌入if控制语句switch语句循环结构while循环do-while循环for循环多重循环选择结构if控制语句if（条件）{代码}if（条件）{代码}else{代码}if（条件1）{代码1 }else if（条件2）{代码2 }else if（条件3）{代码3 }...else{代码N}嵌入if控制语句 if（条件）{ if（条件）{ 代码1； }else{ 代码2；

2020-09-28 10:29:39 74

原创初学java（1）

Javajava是一门跨平台（write once，run anywhere）的面向对象编程语言，它是唯一一门可以运行在JAVA平台的语言跨平台是指一套代码程序可以在多个操作系统上运行它是通过JVM“翻译”来实现跨平台源码=编译=>字节码=虚拟机=>执行java用法JavaSE Client/ServerJavaEE WebAppJavaME 嵌入式jdk,jre,jvmJVM (java virtual machine

2020-09-28 10:28:15 99

原创 HTML

提示：文章写完后，目录可以自动生成，如何生成可参考右边的帮助文档文章目录前言一、pandas是什么？二、使用步骤1.引入库2.读入数据总结前言提示：这里可以添加本文要记录的大概内容：例如：随着人工智能的不断发展，机器学习这门技术也越来越重要，很多人都开启了学习机器学习，本文就介绍了机器学习的基础内容。提示：以下是本篇文章正文内容，下面案例可供参考一、pandas是什么？示例：pandas 是基于NumPy 的一种工具，该工具是为了解决数据分析任务而创建的。二、使用步骤1.引入库代码

2020-09-28 10:25:55 293

leader321的博客