自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(127)
  • 资源 (33)
  • 收藏
  • 关注

原创 hudi表元数据同步hive策略

hudi元数据

2024-09-20 14:07:41 78

原创 hudi开启了流读,read.streaming.enabled为true,还需要设置查询类型吗 如snapshot

即使在开启流式读取时,明确设置查询类型(如snapshot)仍然是一个好习惯。这样可以确保你获取到最新的数据,并且与 Hudi 的流式处理特性相配合,提供一致且准确的实时数据视图。因此,除了设置为true之外,还应设置为snapshot,以确保流式读取能够正确应用所有更新和删除操作。

2024-06-05 17:58:02 328 1

原创 mac m1使用docker安装mysql5.7,并且开启binlog

通过上述步骤,你应该可以在 Mac M1 上使用 Docker 成功安装 MySQL 5.7 并启用 binlog。如果你遇到任何问题,请检查 Docker 日志或者容器日志以获取更多信息。的 MySQL 配置文件,用于启用 binlog。这个文件将覆盖容器内的默认 MySQL 配置文件。连接到 MySQL 容器并验证 binlog 是否已正确启用。这个命令会在后台启动 MySQL 容器,并根据。文件中的配置启用 binlog。在相同的目录下,创建一个名为。

2024-06-05 14:05:58 711

原创 hudi0.13版本clean策略

hudi0.13版本清理策略

2024-05-27 11:00:55 622

原创 hudi相关疑问

hudi changelog模式和append模式区别

2024-05-20 16:38:04 662 1

原创 并发 并行 进程 线程

1)多线程程序在单核上运行,就是并发2)多线程程序在多核上运行,就是并行。

2023-04-07 12:33:17 735 1

转载 spark 读取hive数据 写入hbase

1,saveAsNewAPIHadoopDataset批量写入(千万级别以下使用)import org.apache.hadoop.hbase.client._import org.apache.hadoop.hbase.io.ImmutableBytesWritableimport org.apache.hadoop.hbase.mapreduce.TableOutputFormatim...

2020-03-22 17:37:25 2432 2

原创 Collection 和 map 集合底层数据结构介绍

一、集合框架图二、collection集合方法三、collection和map数据结构 Collection(单列集合) List(有序,可重复) ArrayList 底层数据结构是数组,查询快,增删慢 线程不安全,效率高 Vector ...

2020-02-17 20:54:51 792

转载 使用spark写数据到Hbase的三种方式

方式一:直接使用HBase Table的PUT方法import org.apache.hadoop.hbase.{HBaseConfiguration, TableName}import org.apache.hadoop.hbase.client.{ConnectionFactory, Put, Table}import org.apache.hadoop.hbase.util.Byt...

2020-01-01 23:03:05 1256

原创 idea常用快捷键

idea 查看类图 在指定类右键查看diagram 或者也可以使用快捷键ctrl+alt+u,更快捷。idea 显示一个类的所有方法和属性 ctrl +F12 或者alt+7。idea 回到上一步或下一步 ctrl+alt +左右→。Idea快捷键查看方法在哪里被调用 ctrl+b。Idea 提示方法参数快捷键 ctrl +p。idea复制当前行到下一行 ctrl+d。idea查询快捷键ctrl+shfit+r。idea查询类的所有子类ctrl+h。idea查找类快捷键 ctrl+n。

2019-12-24 16:24:30 228 1

转载 kafka生产者以及消费者demo

kafka视频地址这篇文章主要介绍kafka中JAVA API的使用,这里面为了介绍配置,所以使用的是原生的javaapi操作,kafka可以与spring通过xml配置集成,或者更加简单通过spring boot引入starter,通过(AutoConfiguration)自动配置完成集成。但其实无论何种使用方式,其根本都是使用原生pai进行操作。使用maven依赖管理,引入kafka依赖...

2019-12-09 22:57:30 1033

转载 hbase行键过滤器RowFilter

转载地址 https://my.oschina.net/u/3346994/blog/1923976行过滤器视频链接RowFilter是用来对rowkey进行过滤的,比较符如下:OperatorDescriptionLESS小于LESS_OR_EQUAL小于等于EQUAL等于NOT_EQUAL不等于GREATER_OR_EQUAL大于等于...

2019-12-03 22:44:16 293

原创 hbase 预分区建表以及rowkey设计

hbase 预分区建表create 'table_name',{NAME =>'cf',VERSIONS => '1',COMPRESSION =>'SNAPPY'}, SPLITS_FILE => '/root/data/partition.txt'其中partition.txt是一个本地文件可以看下表的分区情况,如下被分成了十个分区对应rowkey 设计...

2019-10-28 23:26:52 967

原创 elasticsearch 官方文档阅读指导

elastic官网链接点开文档之后会有很多对我们有帮助的文档然后是ELK方面

2019-10-27 22:35:18 445

原创 spring boot整合elasticsearch以及elasticsearch相关文档

参考链接:https://blog.csdn.net/chen_2890/article/details/83895646

2019-10-16 17:23:09 164

转载 Spark分区数、task数目、core数目、worker节点数目、executor数目梳理

转载地址每一个过程的任务数,对应一个inputSplit1, Partition输入可能以多个文件的形式存储在HDFS上,每个File都包含了很多块,称为Block。当Spark读取这些文件作为输入时,会根据具体数据格式对应的InputFormat进行解析,一般是将若干个Block合并成一个输入分片,称为InputSplit,注意InputSplit不能跨越文件。随后将为这些输入分片生...

2019-10-14 22:33:41 736

转载 Hive 外部表关联分区数据

0. 说明已经安装好Hadoop和hive环境,hive把元数据存储在mysql数据库。这里仅讨论外部表和HDFS的关联,并且删掉外部表之后,对HDFS上的文件没有影响1. 在HDFS创建分区,并存有文件手工创建或者由程序在HDFS上生成了分区目录,每个分区目录下有相应的文件。本例中根据day分了两个分区,如下所示:/test/in/day=20/20.txt/test/in/day=...

2019-09-25 18:43:56 547

原创 读取HDFS文件中的数据写入到HBase的表中

mapperpackage com.shengsiyuan.hdfs_to_hbase;import java.io.IOException;import org.apache.hadoop.hbase.client.Put;import org.apache.hadoop.hbase.io.ImmutableBytesWritable;import org.apache.hadoo...

2019-09-04 23:41:49 1910 1

原创 spark shuffle调优

1:sparkconf.set(“spark.shuffle.file.buffer”,“64K”) --不建议使用,因为这么写相当于硬编码 --最高2:在conf/spark-defaults.conf —不建议使用,相当于硬编码 --第三3:./spark-submit --conf spark.shuffle.file.buffer=64 --conf spark.reducer.max...

2019-08-05 16:14:49 526

原创 spark调优

Spark优化参考资料文档下载地址:https://download.csdn.net/download/qq_36306340/11472932分配更多的资源○ 搭建集群(Spark-env.sh)■ SPARK_WORKE_CORES■ SPARK_WORKER_MEMORY○ 提交任务■ ./spark-submit --master node:port --executor-...

2019-08-05 13:14:38 204

原创 JVM面试总结

JVM面试思考准备一.jvm体系总体分四大块:1.类的加载机制2.jvm内存结构3.GC算法 垃圾回收4.GC分析 命令调优二.类的加载机制1.什么是类的加载类的加载指的是将类的.class文件中的二进制数据读入到内存中,将其放在运行时数据区的方法区内,然后在堆区创建一个java.lang.Class对象,用来封装类在方法区内的数据结构。类的加载的最终产品是位于堆 区中的Class...

2019-07-30 13:39:38 228

转载 正则表达式

https://www.jb51.net/tools/shell_regex.html链接下方有练习

2019-06-27 09:20:24 114

转载 HBase shell 命令介绍

HBase shell是HBase的一套命令行工具,类似传统数据中的sql概念,可以使用shell命令来查询HBase中数据的详细情况。安装完HBase之后,如果配置了HBase的环境变量,只要在shell中执行hbase shell就可以进入命令行界面,HBase的搭建可以参考我的上一篇文章:hbase分布式集群搭建HBase介绍HBase简介HBase的名字的来源于Hadoop data...

2019-06-25 19:50:41 203

原创 Hadoop集群启动命令及相关介绍

出去就用hive ,hbase 和 spark(最好学号Scala,)nc -lk 9999(1)判断是物理机还是虚拟机dmesg | grep -i virtual查看系统版本号和系统位数cat /etc/issue && arch(2)查看隐藏文件ll -la(3)查看目录下的所有文件及大小ll -h(4)查看该目录下的文件及文件大小du -sh *|so...

2019-06-25 10:26:30 12966

原创 hive分区以及动态分区

hive静态分区(hive分区主要是为了提高检索效率,内部表和外部表都可以创建分区)hive静态分区操作静态分区操作数据1,小明1,lol-book-move,beijing:shangxuetang-shanghai:pudong2,小明2,lol-book-move,beijing:shangxuetang-shanghai:pudong3,小明3,lol-book-move,b...

2019-06-06 14:07:55 1182

原创 hive单词统计

需统计的单词hello hadoop hive sparkjava python php c hellojava hadoophello java java需创建的表--创建表wc,用来存储单词,是外部表,上面的数据在hdfs的目录位置为/root/wc/wccreate external table wc(line string)location '/root/wc/'...

2019-06-06 10:49:10 630

转载 yum源替换成阿里源以及yum源替换成本地源

目录 1.what is yum?2.where is yum?更换国外源为阿里的仓库更换repo为本地目录源:更换国外源为网易的仓库:更换repo为本地目录源1.what is yum?Shell前端软件包管理器。基于RPM包管理,能够从指定的服...

2019-05-06 17:53:05 2436

原创 环境搭建--(1)虚拟机的安装

2019-04-17 21:20:23 246

转载 JobTracker和TaskTracker详解

一 概述:(1)Hadoop MapReduce采用Master/Slave结构。*Master:是整个集群的唯一的全局管理者,功能包括:作业管理、状态监控和任务调度等,即MapReduce中的JobTracker。*Slave:负责任务的执行和任务状态的回报,即MapReduce中的TaskTracker。二 JobTracker剖析:(1)概述:JobTracker是一个后台服务进程...

2019-03-13 11:07:39 22545 2

原创 spark partition 和HDFS的block

hdfs-block位于存储空间;spark-partition位于计算空间;hdfs-block的大小是固定的;spark-partition大小是不固定的;hdfs-block是有冗余的、不会轻易丢失;spark-partition(RDD)没有冗余设计、丢失之后重新计算得到;注意:textFile方法底层封装的是读取MR读取文件的方式,读取文件之前先split,默认split大...

2019-03-11 20:46:05 813

原创 Hadoop之mapreduce

JobTracker和TaskTracker一 概述:(1)Hadoop MapReduce采用Master/Slave结构。*Master:是整个集群的唯一的全局管理者,功能包括:作业管理、状态监控和任务调度等,即MapReduce中的JobTracker。*Slave:负责任务的执行和任务状态的回报,即MapReduce中的TaskTracker。二 JobTracker剖析:概述...

2019-03-07 15:22:45 2176

原创 Hadoop之HDFS

Hadoop简介http://hadoop.apache.org分布式存储系统HDFS (Hadoop Distributed File System )POSIX• 分布式存储系统• 提供了 高可靠性、高扩展性和高吞吐率的数据存储服务-分布式计算框架MapReduce• 分布式计算框架(计算向数据移动)• 具有 易于编程、高容错性和高扩展性等优点-分布式资源管理框架YARN...

2019-03-07 15:16:59 177

转载 Oracle中的wm_concat函数用法

      在日常的数据查询过程中,经常遇到一条信息分多条记录存储,并以同一个ID关联的情况,比如常见的房产证权利人信息,因为共有权人可能有很多,不可能把所有的权利人都放到权利人表的权利人字段,把所有权利人的证件号都放到权利人证件号字段,所以在数据库设计时候,会采用一个权利人一条记录,并以权利ID关联的方式存...

2019-01-30 14:52:34 38348

原创 nginx的安装

nginx的安装其实很简单,写这篇博客的主要原因是想说下nginx的启动配置成服务启动。资源下载:安装步骤1、需要安装的依赖yum -y install gcc zlib zlib-devel pcre-devel openssl openssl-devel2、解压tar -zxvf tengine-2.1.0.tar.gz3、安装修改文件名mv tengine-2.1.0...

2019-01-17 09:52:14 133

原创 设计模式--单例模式

核心作用保证一个类只有一个实例,并且提供一个访问该实例的全局访问点。常见应用场景– Windows的Task Manager(任务管理器)就是很典型的单例模式– windows的Recycle Bin(回收站)也是典型的单例应用。在整个系统运行过程中,回收站一直维护着仅有的一个实例。– 项目中,读取配置文件的类,一般也只有一个对象。没有必要每次使用配置文件数据,每次new一个对象去读取。...

2019-01-11 14:29:47 137

转载 java内存分析

java内存分析参考链接:https://blog.csdn.net/chendeyou5/article/details/79448638java虚拟机内存可以分为三个区域:堆(heap)、栈(stack)、方法区(method area)在Java中,对象实例都是在堆上创建。一些类信息,常量,静态变量等存储在方法区。堆和方法区都是线程共享的。堆是一个不连续的内存空间,速度慢。用于存...

2019-01-10 09:59:57 284 1

原创 hive(1)hive原理

hive的产生非java编程者对HDFS的数据做MapReduce的操作。hive简介hive:数据仓库hive:解释器,编译器,优化器等hive:运行时,元数据存储在关系型数据库里面什么是hiveHive是建立在 Hadoop 上的数据仓库基础构架。它提供了一系列的工具,可以用来进行数据提取转化加载(ETL),这是一种可以存储、查询和分析存储在 Hadoop 中的大规模数据的机...

2019-01-08 14:59:23 208

转载 一套Oracle SQL练习题及答案

create table student(sno varchar2(10) primary key,sname varchar2(20),sage number(2),ssex varchar2(5));create table teacher(tno varchar2(10) primary key,tname varchar2(20));create table cours...

2018-11-15 13:22:25 916 1

转载 022_Hadoop中的数据类型(Writable、WritableComparable、Comparator、RawComparator…)

1、 在hadoop中所有的key/value都必须实现Writable接口,有两个方法,分别用于读(反序列化)和写(序列化)操作。参考代码: 1 package org.dragon.hadoop.mapreduce.app; 2 3 import java.io.DataInput; 4 import java.io.DataOutput; 5 import ja...

2018-10-30 14:08:19 232

转载 MapReduce shuffle过程详解

一、MapReduce计算模型我们知道MapReduce计算模型主要由三个阶段构成:Map、shuffle、Reduce。Map是映射,负责数据的过滤分法,将原始数据转化为键值对;Reduce是合并,将具有相同key值的value进行处理后再输出新的键值对作为最终结果。为了让Reduce可以并行处理Map的结果,必须对Map的输出进行一定的排序与...

2018-10-30 09:46:24 291

spring boot.rar

Spring Boot是由Pivotal团队提供的全新框架,其设计目的是用来简化新Spring应用的初始搭建以及开发过程。该框架使用了特定的方式来进行配置,从而使开发人员不再需要定义样板化的配置。通过这种方式,Spring Boot致力于在蓬勃发展的快速应用开发领域(rapid application development)成为领导者。

2020-04-12

大数据资料(Hadoop、spark,hbase、hive、hue等)

大数据(big data),IT行业术语,是指无法在一定时间范围内用常规软件工具进行捕捉、管理和处理的数据集合,是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产。

2020-03-08

elasticsrarch(ELK文档).rar

1. 能够理解ElasticSearch的作用以及实际生产环境下的应用场景 2. 完成ElasticSearch服务安装--6.8,7 3. 理解ElasticSearch的相关概念以及对数据的存储方式 4. 能够使用Postman、kibana等工具完成ElasticSearch初步数据操作 5. 理解ElasticSearch工作原理(索引、analysis、mapping等) 6. 能够使用ElasticSearch集成IK分词器 7. 完成对ElasticSearch的索引和文档的CRUD操作 8. Request Body Search和Search API(URI)学习 9. 了解ElasticSearch集群优势 10. 完成ElasticSearch集群搭建及集群监控 11. 理解ElasticSearch集群内部运行机制 12. 了解Logstash使用方法 13. 完成Logstash安装以及

2020-02-29

Kafka尚硅谷.rar

Kafka 是一个分布式的基于发布/订阅模式的消息队列(Message Queue),主要应用于大数据实时处理领域

2019-12-08

Oracle.rar

Oracle基础文档,其中含有Oracle基本语法的使用一些简单的案例,有sql基础练习题可以练习,欢迎初学者下载练习

2019-11-29

hive_elasticsearch_sql面试_大数据面试文档.rar

尚硅谷的hive、sql、elasticsearch、大数据文档,其中sql和hive文档是精髓,sql中包含了各个大公司的面试题,以及面试答案

2019-11-27

ES_SEARCH.rar

代码中的TestEsToFile实现了将elasticsearch中的数据全部写到的本地,并且还有我的一些其他的测试例子

2019-10-07

尚硅谷大数据技术之HBase.docx

含有hbase的原理介绍,从最基础讲起,一步步深入,基本设计了hbase的所有操作

2019-09-24

MySpark.zip

里面包含了sparkcore,sparksql,sparkstreaming以及用java写的

2019-09-16

spark调优.rar

spark调优方法介绍,涉及资源调优,内存,代码,shuffle,数据本地化等等方面的详细介绍,三分文档

2019-08-05

shell自制脚本.rar

本资源是对多台服务器自动升级的脚本,使用expect连接其他服务器,连接后启动各个服务器的脚本,进行杀进程,解压压缩包,在启动服务的操作

2019-05-16

bandicam 2018-09-09 16-49-47-139(rpm安装和yum源配置及安装)

(rpm安装和yum源配置及安装)将yum源替换成阿里源以及将yum源替换成本地源

2019-05-06

expect+tcl工具大合集,用于远程登陆到另外一台linux机器。

expect+tcl工具大合集,用于远程登陆到另外一台linux机器(大家都用的起)。

2019-04-28

tengine-2.1.0.tar.gz

tengine-2.1.0.tar.gz是阿里的开源的软件,和nginx一样,但是并发更好

2019-01-17

Apache_OpenOffice_4.1.5_Linux_x86-64_install-rpm_zh-CN.tar.gz

Apache_OpenOffice_4.1.5_Linux_x86-64_install-rpm_zh-CN.tar.gz安装包

2018-10-09

shell杀服务进程,解压压缩包以及起服务

shell杀weblogic服务进程,解压压缩包以及启动weblogic服务

2018-08-15

shell解压zip压缩包脚本

使用shell写的解压zip压缩包的脚本,可对有规律的文件进行循环解压

2018-07-16

Oracle常用技术

记录了Oracle常用技术,有兴趣的小伙伴可以下载查看,有什么意见也可以评论区分享出来

2018-07-16

dom4j所需jar包

要使dom4j解析xml,必须要有两个jar包,分别是 dom4j-1.6.1.jar 和jaxen-1.1.6.jar,不然会报错。

2018-02-24

Java多线程编程核心技术pdf以及源代码

Java多线程编程核心技术pdf,以及每章节的源代码。欢迎使用,童叟无欺

2018-02-07

quartz所需jar包.rar

quartz所需jar包.rar

2018-01-06

tomcat7_linux

linux系统的tomcat,欢迎大家来下载,不好用找我,在给你找好的

2017-10-24

微信支付 java后端demo

完整的demo,相信很多做微信支付的都会走很多坑,这个demo可以让你少走很多坑

2017-10-16

testspringmvc

测试好的ssm框架,直接打开运行即可

2017-08-27

2017java面试题

2017年大公司java面试题

2017-08-19

AESEncrypt

aes加解密

2017-08-18

sun.misc.BASE64Decoder

base64jar包

2017-08-18

mybatis逆向工程

mybatis逆向工程

2017-08-14

spring+Mybatis+ PageHelper实现分页

spring+Mybatis+ PageHelper实现分页

2017-08-01

ssh for windows

ssh服务

2017-07-28

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除