2021年04月_Shall潇

原创消息中间件有哪些

什么是消息中间件灵魂发问：什么是消息中间件？维基百科对消息中间件的解释：面向消息的系统（消息中间件）是在分布式系统中完成消息的发送和接收的基础软件。消息中间件也可以称消息队列，是指用高效可靠的消息传递机制进行与平台无关的数据交流，并基于数据通信来进行分布式系统的集成。通过提供消息传递和消息队列模型，可以在分布式环境下扩展进程的通信。主流的消息中间件当前业界比较流行的开源消息中间件包括：ActiveMQ、RabbitMQ、RocketMQ、Kafka、ZeroMQ等，其中应用最为广泛的要数Rabbit

2021-04-29 16:04:33 4979 1

原创 Scala---Array函数

文章目录lengthmapmkString++++:/::\addString(b)addString(b, sep)aggregateapplycanEqualcharAtclonecollectcollectFirstcombinationscontainscontainsSlicecopyToArray(xs)copyToArray(xs, start)copyToArray(xs, start, len)copyToBufferlength求数组长度val arr = Array(2,6,1,

2021-04-27 19:39:21 202

原创 Scala---JDBC

【前提：将mysql jar包导入到工程目录下，并且在Mysql中创建好对应的库和表】文章目录一、原版二、隐式类封装表结构如下：其实和之前的JDBC一样的步骤：创建驱动建立连接编写sql预处理执行一、原版import java.sql.{Connection, DriverManager}class ScalaJdbc{ private var driver:String = "com.mysql.jdbc.Driver" private var url:String

2021-04-27 19:36:54 293

原创 Scala---不变、协变、逆变

Scala中包含不变，协变，逆变在Scala中，所有输入参数都是逆变，所有输出都是协变当两个类存在继承关系时，它们被放入到 class[ T ] 中时，原本是不存在关系的但是，使用 class [+T],那么这两个就存在继承关系，并且只能创建本类或者子类，使用 class [-T] 就可以创建本类或父类package Testobject ObjInverAndConvar { class Animal{ def shout(): Unit ={ println(.

2021-04-27 18:51:40 150

原创 Scala---面向对象

单例对象:objectobject Oop1 { println("-------1-----") def showInfo():Unit={ println("-------2-----") println("this is oop1 test") } println("-------3-----")}object TestOop1 { def main(args: Array[String]): Unit = { Oop1.showInfo() }

2021-04-26 19:04:58 111

原创 Scala---函数

一、普通函数def showMe(name:String,age:Int):String={ "my name is "+name+"\tage is "+age }val sho = showMe("Tom",34) //按照顺序---传参println(sho)val sho1= showMe(age=12,name="hel") //指定形参名---传参println(sho1)【注意：函数中只有一条语句可以省略{}】def s

2021-04-26 19:02:14 769

原创 Scala---基础

Scala:是一门多范式（multi-paradigm）的编程语言,运行在 Java 虚拟机上面向对象编程，面向函数式编程。Spark就是用Scala语言编写的文章目录一、关键字二、数据类型三、变量和常量四、字符串插值五、运算符六、条件控制七、条件语句返回值八、循环控制一、关键字二、数据类型Scala和Java中相同的数据类型Scala特有的数据类型三、变量和常量变量：var常量：val【注意：可以不声明变量类型，系统会根据=后面的值自动赋值类型】变量var v1:I.

2021-04-22 14:31:23 156

原创 Scala安装---Windows版

一、下载并安装官方下载：点这里安装过程就一路点点，最重要的就是选择一个安装文件夹就行了二、配置环境变量三、IDEA配置scala语言插件

2021-04-22 11:00:17 111

原创 Hive---select语句什么时候不走MR

其实普通全表查询—不需要走MR例如：select * from 表名，这是通过对文件进行filter过滤就可以实现查询count、sum、group等聚合函数—是一定会走MR的【注意：配置简单查询不走MR的方式】在hive-site.xml里面有个配置参数：hive.fetch.task.conversion将这个参数设置为more，简单查询就不走map/reduce了，设置为minimal，就任何简单select都会走map/reduce不走MR的各种情况：1、等值判断select *

2021-04-20 16:19:45 1833 1

原创 HBase---LSM树

参考—>开源网—LSM参考—>B树、B+树、LSM树区别LSM-Tree(Log Structured Merge Tree)LSM树的索引结构本质是将写入操作全部转化成磁盘的顺序写入，极大地提高了写入操作的性能。但是，这种设计对读取操作是非常不利的，因为需要在读取的过程中，通过归并所有文件来读取所对应的KV，这是非常消耗IO资源的。因此，在HBase中设计了异步的compaction来降低文件个数，达到提高读取性能的目的。由于HDFS只支持文件的顺序写，不支持文件的随机写，而且HDF

2021-04-19 15:24:09 516

原创各种树

MySQL底层原理——B+树：点这里MySQL底层原理——看完这篇就会了HashMap底层原理——红黑树：点这里跳表：点这里各个树的特点：AVL（二叉查找树）：最早的平衡二叉树，左右子树高度差<=1，高度平衡，通过自旋来实现平衡。红黑树：是一种特殊的AVL，在进行插入和删除操作时通过特定操作保持二叉查找树的平衡，从而获得较高的查找性能。与AVL区别：虽然查询没有AVL快，其实差距很小，但是反观插入删除操作，红黑树的效率就比AVL的高的多，因为红黑树并不是高度平衡，减少自旋。B/B+树：

2021-04-16 15:30:27 107

原创 HBase---API

创建表public static void main(String[] args) throws IOException { //添加配置 Configuration conf = HBaseConfiguration.create(); conf.set("hbase.zookeeper.quorum","192.168.XXX.100"); conf.set("hbase.zookeeper.property.clientPort","2

2021-04-12 18:32:42 95

原创 Sqoop

文章目录一、定义二、配置文件三、使用一、定义Sqoop(发音：skup)是一款开源的工具，主要用于在Hadoop(Hive)与传统的数据库(mysql、postgresql…)间进行数据的传递，可以将一个关系型数据库（例如： MySQL ,Oracle ,Postgres等）中的数据导进到Hadoop的HDFS中，也可以将HDFS的数据导进到关系型数据库中。二、配置文件修改 sqoop/conf/sqoop-env.sh添加如下代码：export HADOOP_COMMON_HOME=/o

2021-04-12 17:37:17 206

原创 Hive表中数据导入HBase

确保hive/lib/目录下有个hive和hbase连接的jar包首先看一下HBase中的表结构在Hive中创建外部表create external table stud(rowkey string,name_first string,name_last string,addr_city string,addr_country string,addr_street string)stored by 'org.apache.hadoop.hive.hbase.HBaseStorageH

2021-04-12 17:36:53 251

原创 HBase---如何将文本数据导入到HBase中

一、HBase中提前创建好表首先根据文件的内容，创建好列簇create 'customer',{NAME=>'order'}文件中的内容如下：二、在HBase Shell外部输入命令【注意：这里要指定列，并且文件路径为本地路径——Linux路径】hbase org.apache.hadoop.hbase.mapreduce.ImportTsv \-Dimporttsv.separator=, \-Dimporttsv.columns="HBASE_ROW_KEY,order:or

2021-04-09 14:29:09 2278 2

原创布隆过滤器

【前言：这里为什么会突然讲到布隆过滤器，是因为HBase使用布隆过滤器来从大数据中快速判断是否存在某个数据，当然布隆过滤器可以用到其他领域】文章目录一、定义二、基本概念三、HBase中的布隆过滤器一、定义布隆过滤器（Bloom Filter）是1970年由布隆提出的。它实际上是一个很长的二进制向量和一系列随机映射函数。布隆过滤器可以用于检索一个元素是否在一个集合中。它的优点是空间效率和查询时间都比一般的算法要好的多，缺点是有一定的误识别率和删除困难。二、基本概念如果想要判断一个元素是不是在一个集合

2021-04-09 14:06:59 192

原创 HBase架构设计

逻辑结构

2021-04-09 14:06:12 226

原创 Hive---性能调优

文章目录一、调优工具1、explain2、analyze二、优化设计三、配置优化1、设置本地模式2、JVM重用3、并行执行四、查询优化1、自动启动Map端的join2、启用CBO(Cost based Optimizer):负载均衡3、启用Vectorization(矢量化)4、使用CTE、临时表、窗口函数等正确的编码约定五、压缩一、调优工具1、explainexplain 查询语句;由于Hive中没有索引，那我们还explain什么呢？答：第一、ORC文件和Parquet格式文件是自带索引，可

2021-04-08 14:17:05 346 1

原创 HBase基本命令

文章目录一、创建表二、插入数据三、更改数据四、查询数据五、删除数据一、创建表create '表名',{NAME=>'列簇名'},{NAME=>'列簇名'}...二、插入数据put '表名','行键名','列簇名:列名','值'三、更改数据和插入一样，还是put,相同rowkey,会根据最近的时间戳对应的数据有效原来的数据并不是被覆盖，而时还存在，HBase是按照最新的时间戳来读取数据四、查询数据1、查看表list：查看所有表desc '表名':查看表结构scan

2021-04-08 13:50:40 463

原创 Hive事务

Hive事务使用较少!!!使用较少!!!使用较少!!!一般不用，给钱也不用，除非给的足够多V0.14版本开始支持行级事务支持INSERT、DELETE、UPDATE(v2.2.0开始支持Merge)文件格式只支持ORC局限表必须是bucketed表需要消耗额外的时间、资源和空间不支持开始、提交、回滚、桶或分区列上的更新锁可以为共享锁或排它锁(串联的而不是并发)不允许从一个非ACID连接读写ACID表有那么多问题你还想用Hive事务？加钱后使用方式1、设置好配置set hi

2021-04-08 10:55:28 108

原创 Hive---UDTF

UDTF逻辑代码步骤类继承 GenericUDTF{ initialize()//初始化 pocess() //业务处理 close() //关闭资源}例子：splToLines():字符串指定分割符切分select splToLines(“a,b,c”,",");结果：abc代码package HiveUDF1.udtf;import org.apache.hadoop.hive.ql.exec.Description;import org.apache.hadoop.

2021-04-07 21:55:37 98

转载 JVM---工作原理

转载链接：点这里

2021-04-07 19:26:27 69

原创 Hadoop常用数据模型（文件存储格式）

文章目录一、Text二、SequenceFile三、Avro四、Parquet五、RC & ORC一、Text文本通常采用CSV,JSON等固定长度的纯文本格式优点：1、便于与其他应用程序或脚本进行数据交互2、易读性好，便于理解缺点：1、数据存储量庞大2、查询效率不高3、不支持块压缩二、SequenceFile按行存储二进制键值对数据，HDFS自带的数据格式SequenceFIle中的key和value可以是任意类型的Writable特点以及作用：二进制文件直接将

2021-04-07 16:35:55 1551

转载 Java---设计模式

转载链接：点这里设计模式分类设计模式特点单例模式：某个类只能有一个实例，提供一个全局的访问点。简单工厂：一个工厂类根据传入的参量决定创建出那一种产品类的实例。工厂方法：定义一个创建对象的接口，让子类决定实例化那个类。抽象工厂：创建相关或依赖对象的家族，而无需明确指定具体类。建造者模式：封装一个复杂对象的构建过程，并可以按步骤构造。原型模式：通过复制现有的实例来创建新的实例。适配器模式：将一个类的方法接口转换成客户希望的另外一个接口。组合模式：将对象组合成树形结构以表示“”部分-整体“”

2021-04-07 15:53:45 64

原创 Hive---UDF

【前言】UDF：自定义标准函数UDAF：自定义聚合函数UDTF：自定义表生成函数文章目录一、添加依赖二、编写UDF代码三、测试四、打包置Linux上执行一、添加依赖 <dependency> <groupId>org.apache.hadoop</groupId> <artifactId>hadoop-common</artifactId> <version>2.6.0</ver

2021-04-06 14:24:22 163 1

原创 Hive常用函数

文章目录一、字符函数二、类型转换函数三、数学函数四、日期函数五、集合函数六、条件函数七、聚合函数八、表生成函数一、字符函数二、类型转换函数三、数学函数四、日期函数五、集合函数六、条件函数七、聚合函数count、sum、max、min、avg、var_samp等八、表生成函数...

2021-04-06 13:54:29 83

原创 Hash加密算法

文章目录一、String 类型的 hashcode 方法二、hashcode为什么选择31【前提知识】<< : 左移运算符，num << 1,相当于num乘以2 低位补0>> : 右移运算符，num >> 1,相当于num除以2 高位补0>>> : 无符号右移，忽略符号位，空位都以0补齐 % : 模运算取余^ : 位异或第一个操作数的的第n位于第二个操作数的第n位相反，那么结果的第n为也为1，否则为0 & :

2021-04-01 19:03:09 1514

shall潇の菜园