![](https://img-blog.csdnimg.cn/20201014180756918.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
数据仓库
文章平均质量分 76
百老
熟悉数据治理、物联网、数字孪生、大数据等领域;
获得TOGAF企业架构师、数据治理专家、阿里云云计算工程师、系统集成项目管理工程师、CSDN专家博客、高校教资等认证;
具备数据治理咨询能力、全栈程序开发能力、数据中台架构能力
展开
-
10分钟了解数据架构、数据模型
很多小伙伴分不清数据架构与数据模型,同时如何做好数据建模也有一定的疑问。原创 2023-10-05 19:03:59 · 1868 阅读 · 0 评论 -
10分钟学会Hive之用户自定义函数UTF开发
用户自定义函数概述用户自定义函数简称UDF,源自于英文user-defined function。原创 2023-09-13 14:56:18 · 580 阅读 · 0 评论 -
Hive内置函数字典
HQL同SQL有很多的类似语法,同学熟悉SQL后一般学习起来非常轻松,写一篇文章列举常用函数,方便查找和学习。原创 2023-09-13 13:53:38 · 269 阅读 · 0 评论 -
数据仓库分层设计思想
ODS 全称是 Operational Data Store,操作数据存储.“面向主题的”,数据运营层,也叫ODS层,是最接近数据源中数据的一层,数据源中的数据,经过抽取、洗净、传输,也就说传说中的 ETL 之后,装入本层。但是,这一层面的数据却不等同于原始数据。在源数据装入这一层时,要进行诸如去噪(例如有一条数据中人的年龄是 300 岁,这种属于异常数据,就需要提前做一些处理)、去重(例如在个人资料表中,同一 ID 却有两条重复数据,在接入的时候需要做一步去重)、字段命名规范等一系列操作。原创 2023-09-12 14:58:02 · 115 阅读 · 0 评论 -
20分钟了解物联网开源数据库部署解决方案
本文针对物联网数据存储提供解决方案的思路,项目特点:结构化数据、传感器节点多(>100)、传感器类型多(>30)、采样频率高(1HZ),在此背景下,一般的关系型数据库已经不能够支撑数据存储,基于免费开源的软件完成数据存储工作,提高数据的读写能力。原创 2023-03-29 10:47:14 · 1899 阅读 · 0 评论 -
15分钟学会Canal安装与部署
虽然canal1.1.6已发布稳定版,下载测试一遍未通过,弃!本教程采用canal 1.1.4版本。原创 2023-02-01 21:34:35 · 1511 阅读 · 0 评论 -
Canal与Kafka数据传输协议protocol buffer
实时数仓开发中,利用Canal伪装slave获取MySQL的增量数据,获取后的数据由Kafka生产者接收,交由Flink实时流计算。白话文:安装一个protobuf-dt 2.2.1插件,将编写的proto文件发送给已经下载好的protoc.exe文件编译,编译后产生的Java文件要设置放置路径。下图中Java输出地址,不用写package的地址,因为package地址在proto文件中已写,如果是proto2的话,在写proto文件的时候语法不同,这里2.5.0也是可以的。3)安装protocol插件。原创 2023-02-01 15:05:53 · 663 阅读 · 0 评论 -
10分钟入门HBase特性与安装部署
1)HBase是BigTable的开源java版本。是建立在HDFS之上,提供高可靠性、高性能、列存储、可伸缩、实时读写NoSQL的数据库系统2)HBase仅能通过主键(row key)和主键的range来检索数据,仅支持单行事务3)主要用来存储结构化和半结构化的松散数据4)Hbase查询数据功能很简单,不支持join等复杂操作,不支持复杂的事务(行级的事务)5)Hbase中支持的数据类型:byte[]6)Hbase支持横向扩展,即增加服务器达到增加存储和处理能力大,可以存上十亿行,上百万列。原创 2023-01-02 16:14:01 · 617 阅读 · 0 评论 -
10分钟数仓实战kettle整合hive
在common文件夹下的hadoop-common-3.3.2.jar文件把jar包下载后放在\data-integration\lib目录下如果此时kettle是打开状态,需要重启,才能生效。原创 2022-12-22 10:01:48 · 429 阅读 · 0 评论 -
10分钟数仓实战之kettle整合Hadoop
很多朋友在做数仓的ETL的动作的时候,还是喜欢比较易上手的kettle前面章节有介绍过安装kettle,可以参考kettle在Windows系统中对数据的转换、表和文件的转换等,都相对简单,而在对大数据平台进行操作的时候,需要先配置相关参数,本节进行kettle整合Hadoop。原创 2022-12-12 22:27:26 · 1454 阅读 · 0 评论 -
10分钟数仓实战之kettle发送邮件
2022/12/19 15:53:16 - 发送邮件 - ERROR (version 8.2.0.0-342, build 8.2.0.0-342 from 2018-11-14 10.30.55 by buildguy) : Problem while sending message: javax.mail.MessagingException: Could not connect to SMTP host: smtp.qq.com, port: 465, response: -1。原创 2022-12-19 16:09:56 · 2335 阅读 · 0 评论