自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(13)
  • 收藏
  • 关注

原创 大数据基础数据之中国法定节假日API

中国法定节假日APIDate: November 16, 20211.背景目前业务需求中,需要分析法定节假日。我们日常查看法定节假日,都是在百度或者某些日历中查看。但是,网上很少有通过API获得节假日的方法。因此,就自己查找资料,整理了一套脚本,获取相关节假日。2.相关资料查找能够获取1990年至2050年法定节假日:https://blog.csdn.net/nayi_224/article/details/109068470百度万年历OPENAPI(只能获取2020年之前的,后面收费了):

2022-02-11 20:50:48 9968

原创 Datax 插件二次开发之parquet日志问题处理

Datax 插件二次开发之parquet日志问题处理Date: December 31, 2021参考文档:https://blog.csdn.net/wuleidaren/article/details/106395549https://cloud.tencent.com/developer/ask/1230201.问题背景1.1 发现问题前面对Datax进行了插件开发,能够正常使用,但是发现一个问题,每次执行时,在datax 的日志中会出现很多parquet的无效日志,类似下边:这样,

2022-01-28 19:13:43 2449 1

原创 Datax插件二次开发之HdfsWriter支持parquet

Datax插件二次开发之HdfsWriter支持parquetDate: December 24, 20211. 背景目前,公司的OLAP和AD-HOC组件主要使用impala,而当前我们的impala版本支持parquet\textfile格式,却不支持ORC格式,因此会有同步数据时,进行parquet格式写入的需求。在网上查了下资料,只找到一个支持parquet的hdfswriter插件,但是有网友乐(tian)于(bu)分(zhi)享(chi)的贴了一个版本,没有源码不说,下载下来还各种坑(只

2022-01-28 19:07:24 2936 6

原创 Datax插件二次开发之HdfsReader支持parquet

Datax插件二次开发之HdfsReader支持parquetDate: December 17, 20211. 背景在工作中,数据仓库主要使用parquet格式作为数据存储,有些场景中,需要使用datax进行数据出仓。但是,目前Alibaba Datax 的HdfsReader插件并不支持Parquet格式。在网上也查了不少博客和资料,并没有看到相关的插件开源,因此决定自己开发。2. 操作步骤2.1 代码开发从alibaba Datax官网拉取代码,并新建分支,对hdfsreader模块进行调

2022-01-28 19:05:15 4256 4

原创 Nacos入门与实践

Nacos使用入门参考文档:https://nacos.io/zh-cn/docs/quick-start-spring-cloud.htmlhttps://www.cnblogs.com/yg_zhang/p/12635106.htmlhttps://blog.csdn.net/hello_xing/article/details/1197615111. 什么是Nacos1.1 Nacos基本介绍官网的介绍:Nacos 致力于帮助您发现、配置和管理微服务。Nacos 提供了一组简单易用的

2022-01-28 11:13:43 560

原创 URL编码相关知识整理

最近在进行做相关需求时,遇到URL自定义编码的相关问题,之前对URL编码没有做太多整理,借此做下总结。1.为何要进行URL编码预备知识:URI( Universal Resource Identifier)统一资源标识URL(Universal Resource Locator) 统一资源定位器,是URI的一种在进行HTTP传输时,通常需要将相关参数拼接到访问的URL字符串中,用&符号串联起来,例如: http://test.com/test?a=xx&b=xxx 。但是如果

2022-01-10 21:35:18 943

原创 Kafka基础-原理、运维与开发

文章目录1.kafka基本原理1.1 消息系统的作用1.2 kafka核心概念1.3 kafka集群架构1.4 kafka高性能高可用原理2.kafka运维实战2.1 kafka生产集群部署方案2.2 kafka常用命2.3 kafka监控-Kafkamanager3.kafka开发实战3.1 kafka生产者3.1.1 生产者发消息原理3.1.2 生产者demo代码3.1.3 生产者核心参数3.2 kafka消费者3.2.1 消费者消费几个重要概念3.2.2 消费者demo代码3.2.3 消费者重要参数

2022-01-09 19:06:36 1460

原创 Bitmap数据结构的原理与使用

Bitmap数据结构的原理与使用参考:https://www.cnblogs.com/LBSer/p/3322630.htmlhttps://www.cnblogs.com/yangjiannr/p/da-shu-ju-chu-libitmap.html最近在研究各种OLAP引擎的时候,发现很多地方都有使用Bitmap,特别是大数据领域,Bitmap有很多应用场景,而自身之前对这块只是稍有了解,并为做太多深入,因此进行整理分享。1.Bitmap的概念1.1 Bitmap的基本概念[外链图片转存

2021-11-21 16:08:52 1442

原创 Apache Doris基本要点整理

1. 基本介绍1.1 背景Apache Doris是一款现代高性能MPP分析存储引擎,由百度开源贡献给Apche 基金会进行孵化。它是分布式架构,支持动态扩缩容;兼容mysql协议,使用任何Mysql客户端和BI工具都可以对接Doris;很高的查询性能,单机导入100M/s,查询亚秒级返回,单机QPS在10000以上1.2 主要特性1.2.1 现代化MPP架构简单的MPP架构,不依赖外部系统,自身进行存储和计算。Doris中分成2种角色:FE(Frontend)和BE(Backend),FE负责元

2021-11-20 19:06:10 5267

原创 大数据服务部署之问题排查

项目场景:在部署相关web服务时,出现web页面打不开的问题,在nginx侧与服务侧反复进行查找,都没排查到问题,后通过公司运维支持,快速定位到问题。问题描述:部署web服务时,服务端进行命令行测试正常,nginx状态显示也正常,相关端口也开通了的,但是在web页面进行访问时,只加载了部分页面,主要页面并未加载,F12中相关访问资源也没出现明显报错,但是查看nginx状态和nginx日志,都没看出异常。原因分析:web服务通常的链路:web(url请求)-> 反向代理(nginx/apa

2021-11-11 09:39:00 330

原创 搞定Hive执行计划

Hive Explain 语句类似Mysql 的Explain 语句,提供了对应查询的执行计划,对于我们在理解Hive底层逻辑、Hive调优、Hive SQL书写等方面提供了一个参照,在我们的生产工作了是一个很有意义的工具。1.Hive Explain语法EXPLAIN [EXTENDED|CBO|AST|DEPENDENCY|AUTHORIZATION|LOCKS|VECTORIZATION|ANALYZE] queryhive explain 的语法规则如上,后面将按照对应的子句进行探讨。1.

2021-10-14 09:05:19 778

原创 Sqoop常见用法

目前大数据领域数据处理,涉及数据的采集、整合、统计、展示等各个环节,从而实现数据的使用价值。在整个流程中,采集是必不可少的,采集根据采集方式、数据来源也各有不同。比如,结构化数据通常采用离线同步(sqoop、datax等)和实时同步(binlog),非结构化数据通常采用实时同步(kafka+flume、API主动获取等方式)。我们本次主要讲解下离线采集结构化数据的场景中经常使用的Hadoop生态工具Sqoop。1.Sqoop1命令汇总序号命令类说明1importImpor.

2021-09-15 09:19:31 408

原创 Hive性能调优相关参数整理

阿斯顿撒

2021-09-12 23:43:46 607

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除