自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(18)
  • 资源 (1)
  • 收藏
  • 关注

原创 clickhouse引擎介绍

MergeTree¶家族 (LSM-Tree 数据结构)Replicated(副本)+ MergeTree等 = ReplicatedMergeTreeMergeTree :ReplacingMergeTree : 在后台数据合并期间,对具有相同排序键的数据进行去重操作。SummingMergeTree : 当合并数据时,会把具有相同主键的记录合并为一条记录。根据聚合字段设置,该字段的值为聚合后的汇总值,非聚合字段使用第一条记录的值,聚合字段类型必须为数值类型。Aggregatin

2022-01-04 10:27:42 1752 1

原创 datax开发hdfswriter写入目录不存在时自动创建

在使用datax导数据到hive分区表中,配置写入目录为hive表分区为dt=datax,如果不提前创建该分区,会报目录不存在错误,于是希望二次开发,在写入时检测目录不存在自动创建此分区目录

2021-12-16 14:53:53 3191

原创 datax开发hdfswriter支持parquet文件

因业务需求hive表需要使用parquet格式文件,但是datax导入时不支持parquet格式文件,于是手动开发hdfswriter

2021-12-16 11:58:16 3018 1

原创 Apache Doris - 架构

Doris 采用 MySQL 协议进行通信,用户可通过 MySQL client 或者 MySQL JDBC连接到 Doris 集群。选择 MySQL client 版本时建议采用5.1 之后的版本,因为 5.1 之前不能支持长度超过 16 个字符的用户名。

2021-11-25 14:56:00 1749

原创 基于spark+hudi测试腾讯cos&hdfs读写小文件性能

使用spark读写hudi on cos时发现读写速度非常慢,但因业务场景需要使用二级分区,必定会产生很多小文件,于是测试spark读取cos与hdfs上小文件的性能

2021-11-18 16:17:38 2146

原创 使用腾讯云EMR spark程序通过内网VPC方式访问亚马逊S3

部分业务数据存放在亚马逊S3上,但大数据集群是购买腾讯云emr,希望通过内网专线从腾讯云emr上读取S3的数据写入基于腾讯云cos的hudi中; 亚马逊云s3外网访问速度非常慢,极大概率出现访问超时情况,并且数据传输非常不安全,需要使用专线通过亚马逊提供的interface的VPC endpoint进行访问,但是在此环境下,通过配置S3 bucket访问秘钥来读取数据报错

2021-11-17 15:07:04 1926 5

原创 hive set 参数设置

查询【行转列功能】-- 打印列名set hive.cli.print.header=true;-- 开启行转列功能, 前提必须开启打印列名功能set hive.cli.print.row.to.vertical=true;-- 设置每行显示的列数set hive.cli.print.row.to.vertical.num=1;-- 显示当前数据库set hive.cli.print.current.db=true;动态分区-- 开启动态分区set hive.exec.dynamic

2021-03-01 11:34:26 1033

原创 基于阿里云EMR初期集群选购指南

业务数据量 业务库:累计15G 日志:累计3T;日增量13G集群配置 方案制定:高可用(建议): 集群有两个NameNode节点,一台处于active状态,一台处于standby状态,两台机器实时同步元数据信息,但整个集群工作由active状态的NameNode负责,当此台NameNode出现故障(宕机等情况),standby状态的NameNode会立刻转为active模式,保证集群正常运行。方案: ...

2020-12-09 14:47:45 447

原创 HIVE数据仓库设计

一、目的将各业务部门的日志及必要的业务数据收集到大数据集群,以便进行统一的清洗规整、统计、建模,最终为公司管理层、业务部门提供经营分析、指标监控、推荐服务、公关数据等方面的能力支撑。二、设计原则1、合理:包括:规则合理、数据分层合理、流程合理。数仓越来越规范化,易于后续快速入手,保证数据的完整及安全,数据逻辑易修改。2、可控:包括:数据安全可控、问题定位可控3、迭代优化:可持续优化三、数据分层 分层 说明 ..

2020-12-09 14:41:14 1171

原创 mysql表自动导入hive脚本-01自动hive建表

1.创建mysql表保存mysql以及hive的配置信息 此配置信息表字段包括但不限于以下字段create table `t_auto_mysql2hive_info` (`id` int UNSIGNED AUTO_INCREMENT PRIMARY KEY COMMENT '自增id',`author` varchar(64) NOT NULL DEFAULT '' ...

2019-08-27 12:08:43 1507

原创 Shell脚本中的MySQL查询

sql1="select id,name from test where day = '2019-08-05'"1.result=`mysql -h ip -uroot -proot db_test-e "${sql1}"` echo "${result}"查询结果出现id,name列名,并遍历结果2. 增加 -N result=`mys...

2019-08-05 15:51:14 4448

原创 SparkStreaming项目中遇见的报错

1.kafka自动提交偏移量失败19/04/15 00:46:00 WARN ConsumerCoordinator: Auto offset commit failed for group testGroup: Commit cannot be completed since the group has already rebalanced and assigned the partitio...

2019-05-05 15:00:22 707

原创 Java 中 String 类

一 基础概念1. String是一个类,属于引用数据类型默认为null , JVM对String类做了一个特殊的处理,可以把String像基本数据类型一样使用使用2. String 类的两种实例化方式    (1)直接赋值    String str = "hello";      (2)  通过构造方法赋值  String str = new String("hello");...

2018-08-13 08:19:43 169

原创 java 泛型

1.要求定义这么一个类,可以存放以上三种类型Object是所有类的父类,所有的类型都是Object类的子类,向上转型所有的类型都可以自动向上转型为Object类    整数基本数据类型int ----> 自动装箱包装类   自动向上转型--> Object    小数基本数据类型double --自动装箱包装类    自动向上转型--->Object    字符串...

2018-08-07 09:59:50 166

原创 Java 面向对象

1. 万物皆对象2. 面向对象和面向过程的区别:    面向过程主要是描述一件事情或者是一个过程的执行    面向对象编程主要是用语言描述将现实世界中存在的事物,或者规律。无限接近机器识别的语言。3.对象:    对象包括  属性  和  特征 4.类:类是所有对象的抽象概念或者集合(物以类聚),对象称为类的具体实例。           类是抽象的,对象是具体5....

2018-08-06 19:44:51 212 1

原创 BigData 基础Day3 (机器语言)

二进制数     1.根据计算机中信息的编码表示方式,将数据分为“定点数据”、“浮点数据”、“图形数据”和“文字数据“定点数”是指小数点位置固定不变的数。如整数2700和纯小数0.123。“浮点数”是指小数点位置变化的数 如浮点数123.567。2.原码,补码,反码     原码首位是符号位 0为+ ,1为-;其余各位代码表示数值。      补码 表示法也是用最高一位代...

2018-07-29 21:06:54 215

原创 BigData 基础Day2 (Java基本语法)

1.Java语言基础组成关键字,标识符,注释,常量和变量,运算符,语句,函数,数组1.1 关键字被java赋予了特殊含义的单词。例:class,new,private,protected,public,static,final,abstract,interface,this,super,Intanceof,extends,implements,try,catch,finally,t...

2018-07-25 20:19:58 289

原创 BigData 基础 Day 1(计算机基础)

1.计算机基础1.1 用户操作   1.2 操作系统软件  通用目的:     硬件驱动     进程管理     内存管理     网络管理     安全管理1.3 软件程序与硬件的关系(1)软件程序 = 机器指令 + 数据(2)机器指令:是cpu硬件提供的一个具有基本功能点(如加法指令),计算机可以提供多种指令,这些指令组成的集合叫做“指令集”...

2018-07-24 19:55:57 271

hdfswriter-0.0.1-SNAPSHOT.jar(hdfswriter支持parquet文件且支持自动创建目录)

datax二次开发hdfswriter支持parquet文件且支持自动创建目录

2021-12-20

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除