ETL
Jmayday
人生就像一场修行,不断改变自己对世界的认知,去探索和发现未知事物的奥秘,一次令人回味无穷的旅途
展开
-
Dolphinscheduler使用Datax同步mongodb到doris
datax数据同步原创 2023-03-23 16:49:55 · 2268 阅读 · 0 评论 -
Kettle同步MonggoDB超详细
kettle数据同步原创 2023-02-08 17:57:18 · 3347 阅读 · 0 评论 -
kettle同步doris数据不全问题
doris中sql查询使用order by数据不全问题原创 2023-02-03 11:50:12 · 1565 阅读 · 1 评论 -
kettle任务在Linux服务器上定时调度
1、首先需要在linux上安装kettle,并且设置相关的环境变量2、本地windows上新建转换,并测试结果3、新建作业,测试是否成功4、原创 2022-01-11 11:35:39 · 5212 阅读 · 0 评论 -
Kettle连接Oracle数据库使用服务名无法连接解决方法
报错情况如下:kettle连接如下:一、用Navicat测试Oracle数据库没有问题二、在Kettle里面服务名前加/,测试正常就正常了,kettle对服务名的识别需要加/才可以。原创 2022-01-06 18:21:05 · 3908 阅读 · 8 评论 -
Kibana连接Elasticsearch
1、直接搜索官网下载地址https://www.elastic.co/cn/downloads/kibana也可利用网页直接连接,必须谷歌浏览器http://www.wgstart.com/elasticsearch-head/index.html2、下载之后安装在网页打开地址http://10.1.200.xx:5601/app/kibana#/home我有百度看了两篇感觉还不错的文章,一篇事关于使用,一篇是关于操作的参考文章:使用指南https://blo..原创 2021-09-18 17:54:43 · 533 阅读 · 0 评论 -
辨析数仓、大数据、数据中台的实质(内附21张架构图)
关于数仓、数据集市、数据湖、大数据平台以及数据中台,看到一篇从事21年的大佬写的文章分享,将这几者的本质和区别,结合自身经验,讲得偏僻入理,于是转来分享,希望对大家都有所感悟!作者是21年IT工作经验,IT老兵一枚,关注领域包括证券、航空、制造、电信、电网等。在数据库开发和优化、数据仓库、系统架构、大中型项目管理、数据治理、数据分析、大数据方 面有一定研究。参与移动集团经营分析系统5.0、企业级大数据平台1.0相关规范的编写和审计,中移动集团大数据专家。全文共5000字,读完...转载 2020-09-23 16:54:06 · 2373 阅读 · 0 评论 -
如何搭建实时数据仓库(详解)
一、技术选型介绍在设计篇中,我们给出了RTDP(Real-time Data Platform)的一个整体架构设计(图1)。在技术篇里,我们则会推荐整体技术组件选型;对每个技术组件做出简单介绍,尤其对我们抽象并实现的四个技术平台(统一数据采集平台、统一流式处理平台、统一计算服务平台、统一数据可视化平台)着重介绍设计思路;对Pipeline端到端切面话题进行探讨,包括功能整合、数据管理、数据安全等。图1 RTDP架构1.1 整体技术选型图2 整体技术选型首先,我们简要解读一下图2:转载 2020-05-25 17:41:26 · 2632 阅读 · 0 评论 -
理解数据中台的三种境界
01 理解数据中台的三重境界第一重境界:数据平台化数据中台是要打破重复造轮子的过程,不再每个团队搭建一套Hadoop、Spark这样的大数据组件;而是,从全公司的角度,整合这些工具,所有团队使用公司级别统一提供的大数据平台、开发工具、资产管理平台等。第二重境界:数据服务化数据中台要能打通烟囱式的数据体系,减少每个团队的数据“私货”,做到全域数据打通,构建公司级统一的数据仓库。同时,也提供更方便的数据访问方式:比如数据API、可视化访问、自助提取等。...原创 2020-05-09 08:34:26 · 553 阅读 · 0 评论 -
中台崛起的本质是“去ERP化”
中台的崛起代表了一部分中国领先企业的“去 ERP 化”趋势,从以资源集约化为中心走向以用户价值为中心,从闭源单体架构的商业 ERP 套件走向分布式微服务架构的业务开放平台。本文将从微观宏观双视角展开阐述,微观层面以一个典型的订单服务的演进,展示数据中台业务中台的价值和联系;宏观层面,纵览企业后 ERP 时代的问题,分析中台崛起背后的企业诉求。中台崛起的意义 2019...转载 2020-04-21 09:12:10 · 450 阅读 · 0 评论 -
中台与微服务的区别与联系
01中台是什么?中台的定义来自阿里官方的定义,“企业中台就是,将企业的核心能力随着业务不断发展以数字化形式沉淀到平台,形成以服务为中心,由业务中台和数据中台构建起数据闭环运转的运营体系,供企业更高效的进行业务探索和创新,实现以数字化资产的形态构建企业核心差异化竞争力。”阿里的中台大约有十几个共享业务单元,包括用户中心、商品中心、交易中心等。淘宝、天猫、聚划算等 25...转载 2020-03-31 17:41:56 · 4170 阅读 · 0 评论 -
使用kettle连接SQL Server数据库详细教程
默认你的kettle安装环境是没有问题,如果是kettle的连接问题可以参考以前文章有详细的教程,这里主要讲用kettle连接SQL Server数据库1、先打开kettle2、找到工具-探索资源库-连接3、按照上图所示步骤把相应的地方4、打开探索资源库就可以看到新建的数据连接如果连接不成功可能原因:1、检查是否忘了最上面的连接名,它会有提示2、...原创 2020-01-14 17:26:09 · 7628 阅读 · 0 评论 -
使用kettle如何修改表输出PGSQL库中的字段名称
由于在建数据仓库的时候,输入表连接的库是数据源,输出库连接的数据PGSQL。为了实现:在kettle中的修改方法如下:在这里修改完毕之后,就可以在数据库中再建事实表,设定好主键与外键就可以完成维度表与事实表的建立。...原创 2020-01-09 09:00:07 · 1119 阅读 · 0 评论 -
kettle资源库、运行方式与日志
kettle学习笔记(三)——kettle资源库、运行方式与日志一、kettle资源库 资源库是用来保存转换任务的,用户通过图形界面创建的的转换任务可以保存在资源库中。 资源库可以使多用户共享转换任务,转换任务在资源库中是以文件夹形式分组管理的,用户可以自定义文件夹名称。 1.ketle资源库元数据 • 资源库 资源库包括文件资源库、数据库资源库 ...转载 2020-01-07 17:50:49 · 750 阅读 · 0 评论 -
数据仓库项目之---三种事实表的差异对比
三种基本表的类型:事物事实表、周期快照事实表、累计快照事实表名称 事物事实表 周期快照事实表 累积快照事实表 周期 离散事物时间点 以有规律的、可预测的间隔产生快照 用于时间跨度不确定的不断变化的流水线/工作线 粒度 每个事物或者事务线的一行 每个快照周期加上其它维度的一行 每次管道事件的一行 日期维度 事务日期 快...原创 2020-01-06 17:47:46 · 742 阅读 · 4 评论 -
数据仓库项目之---指标字典制定
1、指标字典是什么? 答:指标字典是业务数据标准化的基础,目的是对指标进行统一管理,方便共享达成对业务指标的共识,并统一修改和维护。指标字典可以更新在excel。如果有足够多的的资源,那么开发指标管理模块可以放在数据管理系统再配合血缘关系,就方便追踪数据流转了。2、设计指标字典的目的? 答:(1).规范维度和量度命名,命名规则要明确,通用,易懂。 ...原创 2019-12-12 11:13:27 · 2562 阅读 · 0 评论 -
阿里巴巴架构师:十问业务中台和我的答案
一切业务数据化,一切数据业务化。 “中台”概念这几年非常火,特别是阿里、腾讯、百度、京东等互联网公司最近频繁的基于中台调整组织架构,把“中台”的热度又上升到另一个高度,甚至有这样的声音, 90 年代不做 ERP 会死,现在不做中台也会定企业生死。中台的概念起源于阿里,也发展于阿里。笔者有幸参与阿里业务中台方法体系建设,也主导参与一些阿里云新零售业务中台项目,经常被问到如下问题。本文...转载 2019-12-11 15:11:51 · 370 阅读 · 0 评论 -
kettle常见问题及排错方法
对于刚开始使用kttle的我,使用了一段时间之后,在日常的工作会出现一些问题下面我就把问题总结一下,并且做一些简单的分析首先,我们需要建立一个转换如下:1、常见错误一分析:在使用kettle做ETL仓库时,SQL查询不能使用参数输入,否则就会出现报错,无法获取到数据2、常见错误二分析:出现错误的原因是SQL有问题,命令未正确结束建议解决方法:...原创 2019-11-12 13:44:56 · 10506 阅读 · 0 评论 -
kettle使用教程(超详细)
今天详细详细说一下kettle 的安装,安装的版本:jdk:jdk-8u152-windows--x64kettle:KETTLE-5.4一、环境部署1、安装JDK,按默认值安装即可2、设置环境变量,如图下图具体步骤: 1.右击我的电脑-属性-高级系统设置-环境变量-系统变量-新建 2.变量名:JAVA_HOME 3.变量值: JDK安装目录3、...原创 2019-11-01 17:21:33 · 198757 阅读 · 93 评论 -
数据仓库准备阶段分析
# 初始阶段1、需求分析目标:收集业务需求与数据实现实现过程:了解关键指标、竞争性商业问题、决策指定过程、支持分析需求对象:通过与业务代表了解业务需求,以及与源系统专家交流2、维度建模的四步法(1)选择业务流程(2)声明粒度(3)确定维度表(4)确定事实表3、选择模型(星型模式与OLAP多维数据库)模型作用:维度表到事实表之间的联系OLAP:包含事实表和维度表## 事实...原创 2019-10-30 09:09:36 · 248 阅读 · 0 评论 -
数据仓库项目实例(马蜂窝数据仓库)
一、马蜂窝数据仓库与数据中台最近几年,数据中台概念的热度一直不减。2018 年起,马蜂窝也开始了自己的数据中台探索之路。数据中台到底是什么?要不要建?和数据仓库有什么本质的区别?相信很多企业都在关注这些问题。我认为数据中台的概念非常接近传统数据仓库+大数据平台的结合体。它是在企业的数据建设经历了数据中心、数据仓库等积累之后,借助平台化的思路,将数据更好地进行整合与统一,以组件化的方式实...转载 2019-10-28 12:02:45 · 9197 阅读 · 0 评论 -
企业数据仓库构架(Kimball架构)
1、建立维度模型的时候不一定要求维度模型满足3范式,维度表存储空间的权衡往往需要关注简单性和 可关注简单性和可访问性2、维度模型星型和OLAP多维数据库3、粒度每行中的数据是一个特定级别的细节数据,称为粒度4、维度建模的核心事实表中的所有度量必须具有相同的粒度5、事实表的粒度划分为三类事务、周期性快照和累计快照 6、展现区数据特点维度化的、原子的、...原创 2019-10-28 11:36:20 · 1016 阅读 · 0 评论 -
搭建数据仓库的基本步骤
一、主要步骤1、确定主题确定数据分析的主题.eg:分析某年某月某地区的各种啤酒销售情况.主题要体现出某一方面的各个分析维度和统计量度之间的关系.2、确定度量度量是分析的技术指标,一般为数值型数据.eg:某地区某派出某粒度所发生的警情积分值3、确定分析粒度采用”最小粒度原则”来满足度量的不同聚合程度.eg:将时间粒度精确到秒可以满足小时,天,周….等不同粒度的度量值4、...原创 2019-10-21 10:36:21 · 6051 阅读 · 0 评论 -
数据中台与传统数据仓库对比
1、传统数据仓库的特点1、业务主题性:传统的数仓要求解决服务问题,比如对一个生产型企业来说公司的主题域是产品、订单、销售商、材料等,要解决应用问题可能是库存、销售、销售商等。其有业务是面向主题的。2、系统集成性:在传统数据仓库中,集成是最重要的,由于计算和存储的成本原因,其数据需要从不同的数据源抽取过来并集中,其数据的冗余度需要尽可能的降低,因此数据进入数据仓库中需要进行转化、格式化、重...原创 2019-10-18 16:36:59 · 735 阅读 · 0 评论 -
可视化、BI、大数据、云计算、人工智能相关概念
1、可视化: 可视化(Visualization)是利用计算机图形学和图像处理技术,将数据转换成图形或图像在屏幕上显示出来,并进行交互处理的。2、BI: 商业智能(Business Intelligence,简称:BI),又称商业智慧或商务智能,指用现代数据仓库技术、线上分析处理技术、数据挖掘和数据展现技术进行数据分析以实现商业价值。3、大数据:...原创 2019-10-18 08:56:07 · 917 阅读 · 0 评论 -
OLTP与OLAP区别与联系
数据库系统一般分为两种类型,一种是面向前台应用的,应用比较简单,但是重吞吐和高并发的OLTP类型;一种是重计算的,对大数据集进行统计分析的OLAP类型。Greenplum属于后者,下面简单介绍下两种数据库系统的特点。OLTP(On-Line Transaction Processing,联机事务处理)系统也称为生产系统,它是事件驱动、面向应用的,比如电子商务网站的交易系统就是典型的OLT...原创 2019-10-17 08:53:48 · 731 阅读 · 0 评论 -
JDK下载地址及账号
官网下载地址:https://www.oracle.com/technetwork/java/javase/downloads/java-archive-javase8-2177648.html账号:2696671285@qq.com密码:Oracle123安装步骤可以查看相关文章比较多...原创 2019-10-16 14:35:04 · 353 阅读 · 0 评论 -
数据中台划分
按照功能和角色数据中台可以划分为四个维度1、业务中台业务中台在前文中反复提及,就是把各个项目的共通业务进行下沉,整合成通用的服务平台:2、技术中台技术平台,为了避免研发人员重复发明轮子,向各个项目提供通用的底层框架、引擎、中间件:3、数据中台数据中台,为各个项目进行各种数据采集和分析:4、算法中台算法中台,为各个项目提供算法能力,比如推荐算法、搜索...原创 2019-10-15 17:32:27 · 2259 阅读 · 0 评论 -
ETL数据仓库技术
1、ETL是什么? ETL,是英文Extract-Transform-Load的缩写,用来描述将数据从来源端经过抽取(extract)、转换(transform)、加载(load)至目的端的过程,是一种数据仓库技术2、ETL的作用是什么?ETL是将业务系统的数据经过抽取、清洗转换之后加载到数据仓库的过程,目的是将企业中的分散、零乱、标准不统一的数据整合到一起,为企业的决策提供分...原创 2019-10-10 09:04:10 · 515 阅读 · 1 评论