自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(53)
  • 资源 (2)
  • 收藏
  • 关注

原创 简单spring boot+log4j+flume+kafka的日志实现

简单spring boot+log4j+flume+kafka的日志实现​ 在安装好zookeeper、Kafka、flume的情况下1.springboot的pom.xml导入依赖 <dependency> <groupId>org.apache.flume.flume-ng-clients</groupId> <artifactId>flume-ng-log4jappender</ar

2020-08-08 15:41:13 579

原创 Maxwell实时同步MySQL数据到Kafka

Maxwell实时同步MySQL数据到Kafka

2023-03-13 22:35:03 1140

原创 Hbase分布式集群安装

Hbase分布式集群安装

2023-01-07 15:02:03 511

原创 根据List对象列表相同的对象id,合并同一属性

根据List对象列表相同的对象id,合并另一属性

2022-12-11 21:53:53 1345

原创 对集合进行操作

对集合进行Stream操作

2022-12-11 21:05:32 116

原创 Flink部署之Yarn

Flink部署之Yarn

2022-11-25 21:09:00 5156

原创 Vue3 UI库、相关工具、可视化生态分享

Vue3 UI库/相关工具/可视化/生态分享

2022-10-13 10:38:28 930

原创 Vue3父子组件数据双向绑定

Vue3父子组件数据双向绑定

2022-09-05 15:02:26 4564 1

原创 Linux安装Nacos集群

Linux安装Nacos集群

2022-08-29 20:03:02 1785

原创 Docker安装单机版Zookeeper

Docker安装单机版Zookeeper

2022-07-19 00:09:37 1017

原创 前后端分离项目Nginx部署

Nginx部署前后台分离项目

2022-07-04 20:44:10 3910

原创 SpringBoot整合MongoDB增删改查

SpringBoot整合MongoDB增删改查

2022-04-20 21:29:36 2177

原创 Docker网络

Docker网络一、理解Docker0所有容器在不指定网络的情况下,都是docker0路由的,docker会给我们的容器分配一个默认的可用ip。Docker使用的是Linux的桥接模式,宿主机中是一个Docker容器的网桥docker0.Docker中所有的网络接口都是虚拟的,虚拟的转发效率高。–link实现容器间通过容器名进行访问docker run -d -it --name centos03 --link centos01 centos[root@bigdata ~]# docker

2021-09-12 18:42:38 152

原创 Docker常用命令及Dockerfile

Docker常用命令及DockerFile一、帮助命令docker version # 显示Docker的版本信息docker info # 显示Docker的系统信息,包括镜像和容器的数量docker 命令 --help # 帮助命令二、镜像命令docker images[root@jiang ~]# docker imagesREPOSITORY TAG IMAGE ID CREATED SIZEcentos lates

2021-09-05 18:34:28 347

原创 Docker安装配置及原理

Docker安装配置及原理一、Docker安装Docker官网:https://docs.docker.com/engine/install/centos/1、卸载旧的版本 sudo yum remove docker \ docker-client \ docker-client-latest \ docker-common \ docker-latest

2021-09-05 18:24:40 156

原创 Hive优化

Hive优化一、大表Join大表1、空KEY过滤有时 join 超时是因为某些 key 对应的数据太多,而相同 key 对应的数据都会发送到相同 的 reducer 上,从而导致内存不够。此时我们应该仔细分析这些异常的 key,很多情况下, 这些 key 对应的数据是异常数据,我们需要在 SQL 语句中进行过滤。例如 key 对应的字段为 空,操作如下:创建原始数据空 id 表// 创建空 id 表create table nullidtable(id bigint, t bigint, uid

2021-07-23 00:02:04 173

原创 Hive详解及常用操作命令

Hive常用操作命令一、 基本数据类型Hive数据类型Java数据类型长度例子TINYINTbyte1byte有符号整数20SMALINTshort2byte有符号整数20INTint4byte有符号整数20BIGINTlong8byte有符号整数20BOOLEANboolean布尔类型,true或者falseTRUE FALSEFLOATfloat单精度浮点数3.14159DOUBLEdouble双精

2021-07-23 00:00:46 2594 4

原创 Hive Load数据进分桶表报错

Hive Load数据进分桶表报错一、报错如下:hive (test)> load data local inpath '/opt/modules/testdata/hive/bigtable' into table bigtable_buck2;FAILED: SemanticException Please load into an intermediate table and use 'insert... select' to allow Hive to enforce bucketin

2021-07-22 23:56:12 1075

原创 Hive数据压缩和存储

Hive数据压缩和存储一、Hadoop压缩配置1、MR支持的压缩编码压缩格式算法文件扩展名是否可切分DEFLATEDEFLATE.deflate否GzipDEFLATE.gz否bzip2bzip2.bz2是LZOLZO.lzo是SnappySnappy.snappy否为了支持多种压缩/解压缩算法,Hadoop 引入了编码/解码器,如下表所示:压缩格式对应的编码/解码器DEFLATEorg.apa

2021-07-22 23:54:23 404

原创 hive练习

Hive练习部门信息表create table if not exists dept(deptno int,dname string, loc int)row format delimited fields terminated by ',';员工信息表create table if not exists emp(empno int,ename string,job string,mgr int,hiredate string,sal double,comm double,

2021-07-22 23:48:44 1334 3

原创 ElasticSearch入门详解

ElasticSearch入门详解一、简介Elasticsearch是一个开源的分布式、RESTful 风格的搜索和数据分析引擎,它的底层是开源库Apache Lucene。Lucene 可以说是当下最先进、高性能、全功能的搜索引擎库——无论是开源还是私有 。为了解决Lucene使用时的繁复性,于是Elasticsearch便应运而生。它使用 Java 编写,内部采用 Lucene 做索引与搜索,但是它的目标是使全文检索变得更简单,简单来说,就是对Lucene 做了一层封装,它提供了一套简单一致的

2021-07-20 19:54:21 216

原创 Zookeeper及其分布式锁

Zookeeper及其分布式锁一、ZooKeeper 数据模型 znode 结构详解在 zookeeper 中,可以说 zookeeper 中的所有存储的数据是由 znode 组成的,节点也称为 znode,并以 key/value 形式存储数据。整体结构类似于 linux 文件系统的模式以树形结构存储。其中根路径以 / 开头。二、Zookeeper session 基本原理客户端与服务端之间的连接是基于 TCP 长连接,client 端连接 server 端默认的 2181 端口,也就是 se

2021-07-17 22:41:37 299 5

原创 Structured Streaming整合Kafka实时统计

Structured Streaming整合Kafka实时统计一、实时ETL启动Zookeeper和kafka# 启动zookeeperbin/zkServer.sh start# 启动kafkabin/kafka-server-start.sh -daemon config/server.properties创建主题bin/kafka-topics.sh --create --zookeeper localhost:2181 --replication-factor 1 --part

2021-07-12 12:18:40 657 3

原创 Spark 的 StructedStreaming

Spark 的 StructedStreaming一、Spark Streaming的不足1、基于微批,延迟高,不能做真正的实时2、DStream基于RDD,不直接支持SQL3、流批处理的API应用层不统一(流用的DStream–底层是RDD,批的用DF/DS/RDD)4、不支持EventTime事件时间注EventTime事件时间:事件真正发生的时间PorcessingTime处理时间:事件被流系统处理的时间IngestionTime摄入时间:事件到达流系统的时间如:一条错误日志10

2021-07-09 17:11:44 671

原创 SparkSQL 整合Hive

SparkSQL 整合Hive一、SparkSQL命令行界面整合Hive1、先启动Hive的metastore安装hive的目录下执行:bin/hive --server metastore &2、把hive的配置文件hive-site.xml拷贝到spark的conf3、启动spark bin目录下 的spark-sql命令4、执行sql语句二、SparkSQL代码整合Hive完整的pom依赖:<?xml version="1.0" encoding="UTF-8"?&

2021-07-08 10:07:40 223

原创 SparkSQL自定义函数

SparkSQL自定义函数一、SparkSQL自定义函数1、使用SparkSQL-UDF将数据转为大写package com.jiang.sparksqlimport org.apache.spark.SparkContextimport org.apache.spark.sql.expressions.UserDefinedFunctionimport org.apache.spark.sql.{DataFrame, Dataset, SparkSession}/* * @param

2021-07-08 10:05:49 201

原创 Spark SQL花式查询

Spark SQL花式查询一、Spark SQL花式查询1、需求:针对personDF中的数据使用SQL和DSL两种方式进行各种查询scala代码:package com.jiang.sparksqlimport org.apache.spark.SparkContextimport org.apache.spark.rdd.RDDimport org.apache.spark.sql.{DataFrame, SparkSession}/* * @param null** @

2021-07-07 09:56:15 441

原创 Spark SQL(RDD、DataFrame 、DataSet 相互转换)

Spark SQL(RDD、DataFrame 、DataSet 相互转换)一、Spark SQL数据抽象SparkCore的数据抽象:RDDSparkStreaming的数据抽象:DStream,底层是RDDSparkSQL的数据抽象:DataFrame和DataSet,底层是RDD1、DataFrameDataFrame = RDD - 泛型 + Schema约束(指定字段名和类型)+ SQL操作 + 优化DataFrame 就是在RDD的基础之上做了进一步的封装,支持 SQL操作Da

2021-07-06 22:59:00 855 1

原创 Spark Streaming整合Kafka及示例

Spark Streaming整合Kafka及示例Spark和kafka整合有2中方式 : Receiver 和 Dirct主要学习Dirct方式一、Receiver二、Direct三、代码演示完整pom文件<?xml version="1.0" encoding="UTF-8"?><project xmlns="http://maven.apache.org/POM/4.0.0" xmlns:xsi="http://www.w3.org/2001/X

2021-07-06 09:33:28 333

原创 Spark Streaming及示例

Spark Streaming及示例一、Spark Streaming介绍Spark Streaming是近实时(near real time)的小批处理系统 。Spark Streaming是Spark core API的扩展,支持实时数据流的处理,并且具有可扩展,高吞吐量,容错的特点。 数据可以从许多来源获取,如Kafka,Flume,Kinesis或TCP sockets,并且可以使用复杂的算法进行处理,这些算法使用诸如map,reduce,join和window等高级函数表示。 最后,处理后的数

2021-07-05 10:52:10 1268 1

原创 报java.lang.UnsatisfiedLinkError: org.apache.hadoop.io.nativeio.NativeIO$Windows错误

报java.lang.UnsatisfiedLinkError: org.apache.hadoop.io.nativeio.NativeIO$Windows错误解决方法:在C:/Windows/System32 添加文件:hadoop.dll各版本hadoop的 hadoop.dll下载地址:https://github.com/4ttty/winutils如果还不行再配置hadoop的环境变量各版本Hadoop的下载地址:https://archive.apache.org/dist/had

2021-07-04 21:53:15 806 2

原创 Spark内核原理

Spark内核原理一、依赖关系Spark中RDD的高效与DAG图有着莫大的关系,在DAG调度中需要对计算过程划分stage,而划分依据就是RDD之间的依赖关系。针对不同的转换函数,RDD之间的依赖关系分类窄依赖(narrow dependency)和宽依赖(wide dependency, 也称 shuffle dependency).1.宽依赖(有shuffle )父RDD的一个分区会被子RDD的多个分区所依赖,子RDD分区通常对应所有的父RDD分区(O(n),与数据规模有关) 。 例如 Gr

2021-07-04 09:00:15 166

原创 Spark函数算子及示例

Spark函数/算子一、集合算子1、没有key的聚合函数sumreducefoldaggregatepackage com.jiang.helloimport org.apache.spark.rdd.RDDimport org.apache.spark.{SparkConf, SparkContext}object RDD_aggregate_NoKey { def main(args: Array[String]): Unit = { val conf:Spark

2021-07-04 08:54:09 376

原创 Spark Scala读写Mysql

Spark Scala读写Mysql一、写操作在MySQL中 创建 bigdata_test数据库创建 user(id, name, age)表scala代码:package com.jiang.helloimport java.sql.{Connection, PreparedStatement}import org.apache.spark.rdd.RDDimport org.apache.spark.{SparkConf, SparkContext}object RDD_Da

2021-07-03 11:46:13 470

原创 Spark环境搭建

Spark环境搭建一、local本地模式1.下载spark压缩包spark-3.0.1-bin-hadoop2.7.tgz。地址: http://archive.apache.org/dist/spark/2.解压并重命名# 解压到指定路径tar -zxvf spark-3.0.1-bin-hadoop2.7.tgz -C /opt/modules/# 重命名mv spark-3.0.1-bin-hadoop2.7 spark-3.0.13.测试二、Standalone-独立集群模式

2021-07-03 11:42:32 816

原创 SpringBoot整合AOP日志记录

SpringBoot整合AOP日志记录一、 指定路径日志切入点项目目录pom文件依赖<dependencies> <dependency> <groupId>org.springframework.boot</groupId> <artifactId>spring-boot-starter-web</artifactId> <vers

2021-06-26 18:26:46 83

原创 Kafka分布式集群部署

Kafka分布式集群部署1.集群规划在hadoop01、hadoop02和hadoop03三个节点上部署Kafka。我安装的版本是kafka_2.11-2.1.0.tgz,下载地址:http://archive.apache.org/dist/kafka2.解压安装(1)解压Kafka安装包到/opt/modules/目录下# 解压[jiang@hadoop01 software]$ tar -zxvf kafka_2.11-2.1.0.tgz -C /opt/modules/# 重命名[j

2021-05-28 22:41:23 295

原创 Zookeeper分布式集群部署

Zookeeper分布式集群部署1.集群规划在hadoop01、hadoop02和hadoop03三个节点上部署Zookeeper。我安装的版本是apache-zookeeper-3.5.7-bin.tar.gz,下载地址:http://archive.apache.org/dist/zookeeper/2.解压安装(1)解压Zookeeper安装包到/opt/modules/目录下# 解压[jiang@hadoop01 software]$ tar -zxvf apache-zookeeper

2021-05-28 22:39:38 267

原创 Hive安装Tez引擎

Hive安装Tez引擎一、前置准备要先安装好Hadoop(伪分布式或分布式集群)和Hive。简单了解用Hive直接编写MR程序,假设有4个有依赖关系的MR作业,上图中,蓝色代表MapTask,绿色代表ReduceTask,云状表示中间结果持久化到磁盘Tez可以将多个有依赖的作业转换为一个作业(DAG),这样只需要写一次HDFS,且中间节点较少,从而大大提升作业的计算性能二、更换Tez引擎1、下载并解压下载所需版本的 tez 依赖包,这里我下载版本为 apache-tez-0.9.2-bin

2021-05-25 22:57:21 311

原创 Hive安装及配置Mysql元数据库

Hive安装及配置Mysql元数据库一、Hive安装配置1、前置准备安装Hive前要先把Hadoop(伪分布式或集群模式)安装好,因为Hive是依赖于Hadoop运行的2.安装Hive下载所需版本的 Hive , 这里我下载版本为 apache-hive-2.3.0-bin.tar.gz。下载地址: http://archive.apache.org/dist/hive/解压及重命名# 解压到指定目录[jiang@hadoop01 software]$ tar -zxvf apache-hi

2021-05-25 22:47:37 1139

Springboot+Mybatis-plus实现邮箱验证注册

很多网站注册功能都会给您注册的邮箱发送一封邮件,里面是一串链接,点击链接激活功能 。 在注册的时候,User类中设置一个邮件码active_code,同时用户激活状态active_status默认为0(0 未激活 1 已激活)。邮件码可以通过UUID实现,这样在注册的时候发送一封邮件,把这个邮件码以html的格式发送到注册邮箱,然后通过点击链接,把邮件码在提交到后台进行对比,如果邮件中的邮件码跟发送时设置的一样,就把用户状态改为1激活,然后登陆即可。

2020-09-15

最好用的Markdown文本编辑器typora.rar

最好用的Markdown文本编辑器,界面简洁,功能齐全,文本可以导出成各种格式,是一款做笔记非常顺心的软件。

2020-04-29

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除