辣条好辣-CSDN博客

原创 hudi表元数据同步hive策略

hudi元数据

2024-09-20 14:07:41 272 1

原创 hudi开启了流读，read.streaming.enabled为true，还需要设置查询类型吗如snapshot

即使在开启流式读取时，明确设置查询类型（如snapshot）仍然是一个好习惯。这样可以确保你获取到最新的数据，并且与 Hudi 的流式处理特性相配合，提供一致且准确的实时数据视图。因此，除了设置为true之外，还应设置为snapshot，以确保流式读取能够正确应用所有更新和删除操作。

2024-06-05 17:58:02 486 1

原创 mac m1使用docker安装mysql5.7，并且开启binlog

通过上述步骤，你应该可以在 Mac M1 上使用 Docker 成功安装 MySQL 5.7 并启用 binlog。如果你遇到任何问题，请检查 Docker 日志或者容器日志以获取更多信息。的 MySQL 配置文件，用于启用 binlog。这个文件将覆盖容器内的默认 MySQL 配置文件。连接到 MySQL 容器并验证 binlog 是否已正确启用。这个命令会在后台启动 MySQL 容器，并根据。文件中的配置启用 binlog。在相同的目录下，创建一个名为。

2024-06-05 14:05:58 1271

原创 hudi0.13版本clean策略

hudi0.13版本清理策略

2024-05-27 11:00:55 875

原创 hudi相关疑问

hudi changelog模式和append模式区别

2024-05-20 16:38:04 882 1

原创并发并行进程线程

1)多线程程序在单核上运行，就是并发2)多线程程序在多核上运行，就是并行。

2023-04-07 12:33:17 781

转载 spark 读取hive数据写入hbase

1，saveAsNewAPIHadoopDataset批量写入（千万级别以下使用）import org.apache.hadoop.hbase.client._import org.apache.hadoop.hbase.io.ImmutableBytesWritableimport org.apache.hadoop.hbase.mapreduce.TableOutputFormatim...

2020-03-22 17:37:25 2582 2

原创 Collection 和 map 集合底层数据结构介绍

一、集合框架图二、collection集合方法三、collection和map数据结构 Collection(单列集合) List(有序,可重复) ArrayList 底层数据结构是数组,查询快,增删慢线程不安全,效率高 Vector ...

2020-02-17 20:54:51 859

转载使用spark写数据到Hbase的三种方式

方式一：直接使用HBase Table的PUT方法import org.apache.hadoop.hbase.{HBaseConfiguration, TableName}import org.apache.hadoop.hbase.client.{ConnectionFactory, Put, Table}import org.apache.hadoop.hbase.util.Byt...

2020-01-01 23:03:05 1321

原创 idea常用快捷键

idea 查看类图在指定类右键查看diagram 或者也可以使用快捷键ctrl+alt+u，更快捷。idea 显示一个类的所有方法和属性 ctrl +F12 或者alt+7。idea 回到上一步或下一步 ctrl+alt +左右→。Idea快捷键查看方法在哪里被调用 ctrl+b。Idea 提示方法参数快捷键 ctrl +p。idea复制当前行到下一行 ctrl+d。idea查询快捷键ctrl+shfit+r。idea查询类的所有子类ctrl+h。idea查找类快捷键 ctrl+n。

2019-12-24 16:24:30 284 1

转载 kafka生产者以及消费者demo

kafka视频地址这篇文章主要介绍kafka中JAVA API的使用，这里面为了介绍配置，所以使用的是原生的javaapi操作，kafka可以与spring通过xml配置集成，或者更加简单通过spring boot引入starter，通过（AutoConfiguration）自动配置完成集成。但其实无论何种使用方式，其根本都是使用原生pai进行操作。使用maven依赖管理，引入kafka依赖...

2019-12-09 22:57:30 1110

转载 hbase行键过滤器RowFilter

转载地址 https://my.oschina.net/u/3346994/blog/1923976行过滤器视频链接RowFilter是用来对rowkey进行过滤的,比较符如下:OperatorDescriptionLESS小于LESS_OR_EQUAL小于等于EQUAL等于NOT_EQUAL不等于GREATER_OR_EQUAL大于等于...

2019-12-03 22:44:16 341

原创 hbase 预分区建表以及rowkey设计

hbase 预分区建表create 'table_name',{NAME =>'cf',VERSIONS => '1',COMPRESSION =>'SNAPPY'}, SPLITS_FILE => '/root/data/partition.txt'其中partition.txt是一个本地文件可以看下表的分区情况，如下被分成了十个分区对应rowkey 设计...

2019-10-28 23:26:52 1014

原创 elasticsearch 官方文档阅读指导

elastic官网链接点开文档之后会有很多对我们有帮助的文档然后是ELK方面

2019-10-27 22:35:18 472

原创 spring boot整合elasticsearch以及elasticsearch相关文档

参考链接：https://blog.csdn.net/chen_2890/article/details/83895646

2019-10-16 17:23:09 185

转载 Spark分区数、task数目、core数目、worker节点数目、executor数目梳理

转载地址每一个过程的任务数，对应一个inputSplit1, Partition输入可能以多个文件的形式存储在HDFS上，每个File都包含了很多块，称为Block。当Spark读取这些文件作为输入时，会根据具体数据格式对应的InputFormat进行解析，一般是将若干个Block合并成一个输入分片，称为InputSplit，注意InputSplit不能跨越文件。随后将为这些输入分片生...

2019-10-14 22:33:41 783

转载 Hive 外部表关联分区数据

0. 说明已经安装好Hadoop和hive环境，hive把元数据存储在mysql数据库。这里仅讨论外部表和HDFS的关联，并且删掉外部表之后，对HDFS上的文件没有影响1. 在HDFS创建分区，并存有文件手工创建或者由程序在HDFS上生成了分区目录，每个分区目录下有相应的文件。本例中根据day分了两个分区，如下所示：/test/in/day=20/20.txt/test/in/day=...

2019-09-25 18:43:56 586

原创读取HDFS文件中的数据写入到HBase的表中

mapperpackage com.shengsiyuan.hdfs_to_hbase;import java.io.IOException;import org.apache.hadoop.hbase.client.Put;import org.apache.hadoop.hbase.io.ImmutableBytesWritable;import org.apache.hadoo...

2019-09-04 23:41:49 1961 1

原创 spark shuffle调优

1:sparkconf.set(“spark.shuffle.file.buffer”,“64K”) --不建议使用，因为这么写相当于硬编码 --最高2：在conf/spark-defaults.conf —不建议使用，相当于硬编码 --第三3：./spark-submit --conf spark.shuffle.file.buffer=64 --conf spark.reducer.max...

2019-08-05 16:14:49 563

原创 spark调优

Spark优化参考资料文档下载地址：https://download.csdn.net/download/qq_36306340/11472932分配更多的资源○ 搭建集群(Spark-env.sh)■ SPARK_WORKE_CORES■ SPARK_WORKER_MEMORY○ 提交任务■ ./spark-submit --master node:port --executor-...

2019-08-05 13:14:38 232

原创 JVM面试总结

JVM面试思考准备一.jvm体系总体分四大块：1.类的加载机制2.jvm内存结构3.GC算法垃圾回收4.GC分析命令调优二.类的加载机制1.什么是类的加载类的加载指的是将类的.class文件中的二进制数据读入到内存中，将其放在运行时数据区的方法区内，然后在堆区创建一个java.lang.Class对象，用来封装类在方法区内的数据结构。类的加载的最终产品是位于堆区中的Class...

2019-07-30 13:39:38 248

转载正则表达式

https://www.jb51.net/tools/shell_regex.html链接下方有练习

2019-06-27 09:20:24 135

转载 HBase shell 命令介绍

HBase shell是HBase的一套命令行工具，类似传统数据中的sql概念，可以使用shell命令来查询HBase中数据的详细情况。安装完HBase之后，如果配置了HBase的环境变量，只要在shell中执行hbase shell就可以进入命令行界面，HBase的搭建可以参考我的上一篇文章：hbase分布式集群搭建HBase介绍HBase简介HBase的名字的来源于Hadoop data...

2019-06-25 19:50:41 234

原创 Hadoop集群启动命令及相关介绍

出去就用hive ，hbase 和 spark（最好学号Scala，）nc -lk 9999(1)判断是物理机还是虚拟机dmesg | grep -i virtual查看系统版本号和系统位数cat /etc/issue && arch(2)查看隐藏文件ll -la(3)查看目录下的所有文件及大小ll -h(4)查看该目录下的文件及文件大小du -sh *|so...

2019-06-25 10:26:30 13100

原创 hive分区以及动态分区

hive静态分区（hive分区主要是为了提高检索效率，内部表和外部表都可以创建分区）hive静态分区操作静态分区操作数据1,小明1,lol-book-move,beijing:shangxuetang-shanghai:pudong2,小明2,lol-book-move,beijing:shangxuetang-shanghai:pudong3,小明3,lol-book-move,b...

2019-06-06 14:07:55 1220

原创 hive单词统计

需统计的单词hello hadoop hive sparkjava python php c hellojava hadoophello java java需创建的表--创建表wc,用来存储单词，是外部表，上面的数据在hdfs的目录位置为/root/wc/wccreate external table wc(line string)location '/root/wc/'...

2019-06-06 10:49:10 672

转载 yum源替换成阿里源以及yum源替换成本地源

目录 1.what is yum?2.where is yum?更换国外源为阿里的仓库更换repo为本地目录源：更换国外源为网易的仓库：更换repo为本地目录源1.what is yum?Shell前端软件包管理器。基于RPM包管理，能够从指定的服...

2019-05-06 17:53:05 2515

原创环境搭建--（1）虚拟机的安装

2019-04-17 21:20:23 268

转载 JobTracker和TaskTracker详解

一概述：(1)Hadoop MapReduce采用Master/Slave结构。*Master：是整个集群的唯一的全局管理者，功能包括：作业管理、状态监控和任务调度等，即MapReduce中的JobTracker。*Slave：负责任务的执行和任务状态的回报，即MapReduce中的TaskTracker。二 JobTracker剖析：(1)概述：JobTracker是一个后台服务进程...

2019-03-13 11:07:39 23174 2

原创 spark partition 和HDFS的block

hdfs-block位于存储空间；spark-partition位于计算空间；hdfs-block的大小是固定的；spark-partition大小是不固定的；hdfs-block是有冗余的、不会轻易丢失；spark-partition（RDD）没有冗余设计、丢失之后重新计算得到；注意：textFile方法底层封装的是读取MR读取文件的方式，读取文件之前先split，默认split大...

2019-03-11 20:46:05 865

原创 Hadoop之mapreduce

JobTracker和TaskTracker一概述：(1)Hadoop MapReduce采用Master/Slave结构。*Master：是整个集群的唯一的全局管理者，功能包括：作业管理、状态监控和任务调度等，即MapReduce中的JobTracker。*Slave：负责任务的执行和任务状态的回报，即MapReduce中的TaskTracker。二 JobTracker剖析：概述...

2019-03-07 15:22:45 2357

原创 Hadoop之HDFS

Hadoop简介http://hadoop.apache.org分布式存储系统HDFS （Hadoop Distributed File System ）POSIX• 分布式存储系统• 提供了高可靠性、高扩展性和高吞吐率的数据存储服务-分布式计算框架MapReduce• 分布式计算框架（计算向数据移动）• 具有易于编程、高容错性和高扩展性等优点-分布式资源管理框架YARN...

2019-03-07 15:16:59 204

转载 Oracle中的wm_concat函数用法

      在日常的数据查询过程中，经常遇到一条信息分多条记录存储，并以同一个ID关联的情况，比如常见的房产证权利人信息，因为共有权人可能有很多，不可能把所有的权利人都放到权利人表的权利人字段，把所有权利人的证件号都放到权利人证件号字段，所以在数据库设计时候，会采用一个权利人一条记录，并以权利ID关联的方式存...

2019-01-30 14:52:34 38909

原创 nginx的安装

nginx的安装其实很简单，写这篇博客的主要原因是想说下nginx的启动配置成服务启动。资源下载：安装步骤1、需要安装的依赖yum -y install gcc zlib zlib-devel pcre-devel openssl openssl-devel2、解压tar -zxvf tengine-2.1.0.tar.gz3、安装修改文件名mv tengine-2.1.0...

2019-01-17 09:52:14 155

原创设计模式--单例模式

核心作用保证一个类只有一个实例，并且提供一个访问该实例的全局访问点。常见应用场景– Windows的Task Manager（任务管理器）就是很典型的单例模式– windows的Recycle Bin（回收站）也是典型的单例应用。在整个系统运行过程中，回收站一直维护着仅有的一个实例。– 项目中，读取配置文件的类，一般也只有一个对象。没有必要每次使用配置文件数据，每次new一个对象去读取。...

2019-01-11 14:29:47 153

转载 java内存分析

java内存分析参考链接：https://blog.csdn.net/chendeyou5/article/details/79448638java虚拟机内存可以分为三个区域：堆(heap)、栈(stack)、方法区(method area)在Java中，对象实例都是在堆上创建。一些类信息，常量，静态变量等存储在方法区。堆和方法区都是线程共享的。堆是一个不连续的内存空间，速度慢。用于存...

2019-01-10 09:59:57 312 1

原创 hive(1)hive原理

hive的产生非java编程者对HDFS的数据做MapReduce的操作。hive简介hive：数据仓库hive：解释器，编译器，优化器等hive：运行时，元数据存储在关系型数据库里面什么是hiveHive是建立在 Hadoop 上的数据仓库基础构架。它提供了一系列的工具，可以用来进行数据提取转化加载（ETL），这是一种可以存储、查询和分析存储在 Hadoop 中的大规模数据的机...

2019-01-08 14:59:23 239

转载一套Oracle SQL练习题及答案

create table student(sno varchar2(10) primary key,sname varchar2(20),sage number(2),ssex varchar2(5));create table teacher(tno varchar2(10) primary key,tname varchar2(20));create table cours...

2018-11-15 13:22:25 954 1

转载 022_Hadoop中的数据类型（Writable、WritableComparable、Comparator、RawComparator…）

1、在hadoop中所有的key/value都必须实现Writable接口，有两个方法，分别用于读（反序列化）和写（序列化）操作。参考代码： 1 package org.dragon.hadoop.mapreduce.app; 2 3 import java.io.DataInput; 4 import java.io.DataOutput; 5 import ja...

2018-10-30 14:08:19 273

转载 MapReduce shuffle过程详解

一、MapReduce计算模型我们知道MapReduce计算模型主要由三个阶段构成：Map、shuffle、Reduce。Map是映射，负责数据的过滤分法，将原始数据转化为键值对；Reduce是合并，将具有相同key值的value进行处理后再输出新的键值对作为最终结果。为了让Reduce可以并行处理Map的结果，必须对Map的输出进行一定的排序与...

2018-10-30 09:46:24 316

2017java面试题

2017年大公司java面试题

2017-08-19

Oracle常用技术

记录了Oracle常用技术，有兴趣的小伙伴可以下载查看，有什么意见也可以评论区分享出来

2018-07-16

尚硅谷大数据技术之HBase.docx

含有hbase的原理介绍，从最基础讲起，一步步深入，基本设计了hbase的所有操作

2019-09-24

大数据资料（Hadoop、spark，hbase、hive、hue等）

大数据（big data），IT行业术语，是指无法在一定时间范围内用常规软件工具进行捕捉、管理和处理的数据集合，是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产。

2020-03-08

Apache_OpenOffice_4.1.5_Linux_x86-64_install-rpm_zh-CN.tar.gz

Apache_OpenOffice_4.1.5_Linux_x86-64_install-rpm_zh-CN.tar.gz安装包

2018-10-09

shell解压zip压缩包脚本

使用shell写的解压zip压缩包的脚本，可对有规律的文件进行循环解压

2018-07-16

微信支付 java后端demo

完整的demo，相信很多做微信支付的都会走很多坑，这个demo可以让你少走很多坑

2017-10-16

dom4j所需jar包

要使dom4j解析xml，必须要有两个jar包，分别是 dom4j-1.6.1.jar 和jaxen-1.1.6.jar，不然会报错。

2018-02-24

Kafka尚硅谷.rar

Kafka 是一个分布式的基于发布/订阅模式的消息队列（Message Queue），主要应用于大数据实时处理领域

2019-12-08

ssh for windows

ssh服务

2017-07-28

spring+Mybatis+ PageHelper实现分页

2017-08-01

quartz所需jar包.rar

2018-01-06

elasticsrarch(ELK文档).rar

1. 能够理解ElasticSearch的作用以及实际生产环境下的应用场景 2. 完成ElasticSearch服务安装--6.8，7 3. 理解ElasticSearch的相关概念以及对数据的存储方式 4. 能够使用Postman、kibana等工具完成ElasticSearch初步数据操作 5. 理解ElasticSearch工作原理（索引、analysis、mapping等） 6. 能够使用ElasticSearch集成IK分词器 7. 完成对ElasticSearch的索引和文档的CRUD操作 8. Request Body Search和Search API(URI)学习 9. 了解ElasticSearch集群优势 10. 完成ElasticSearch集群搭建及集群监控 11. 理解ElasticSearch集群内部运行机制 12. 了解Logstash使用方法 13. 完成Logstash安装以及

2020-02-29

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

2017java面试题

Oracle常用技术

尚硅谷大数据技术之HBase.docx

大数据资料（Hadoop、spark，hbase、hive、hue等）

Apache_OpenOffice_4.1.5_Linux_x86-64_install-rpm_zh-CN.tar.gz

shell解压zip压缩包脚本

微信支付 java后端demo

dom4j所需jar包

Kafka尚硅谷.rar

ssh for windows

spring+Mybatis+ PageHelper实现分页

quartz所需jar包.rar

elasticsrarch(ELK文档).rar

tengine-2.1.0.tar.gz

AESEncrypt

hive_elasticsearch_sql面试_大数据面试文档.rar

bandicam 2018-09-09 16-49-47-139(rpm安装和yum源配置及安装)

expect+tcl工具大合集，用于远程登陆到另外一台linux机器。

shell自制脚本.rar

spring boot.rar

ES_SEARCH.rar

shell杀服务进程，解压压缩包以及起服务

testspringmvc

spark调优.rar

Java多线程编程核心技术pdf以及源代码

sun.misc.BASE64Decoder

Oracle.rar

mybatis逆向工程

tomcat7_linux

MySpark.zip

空空如也