![](https://img-blog.csdnimg.cn/20201014180756780.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
DW
秉寒-CHO
但行好事,莫问前程
展开
-
hudi flink 集成error ,未解决
2021-08-07 10:29:55org.apache.flink.util.FlinkException: Error from OperatorCoordinatorat org.apache.flink.runtime.operators.coordination.OperatorCoordinatorHolder.notifySubtaskReady(OperatorCoordinatorHolder.java:426)at org.apache.flink.runt...原创 2021-08-07 17:22:54 · 942 阅读 · 5 评论 -
数据中台相关情况
是否支持多机房组成一个global集群,目的当一个机房物理容量不可扩容时,是否可以支持多机房的存储计算? 当IAAS层ready没问题时,产品安装时间大约多久?后续集群扩容(可以按规模给定时间,如扩容增加大约10台机器需花费时间多久?)和产品升级花费时间多久? 支持spark3了吗?如果社区flink,spark,hbase,hadoop有大版本升级,大数据平台滞后多久跟随升级? 使用产品时报错无法完成预期任务,如果是产品测的问题,多久能得到反馈解决? 产品是否支持模块化销售:基本大数据底座,数据治原创 2021-04-01 10:08:50 · 92 阅读 · 0 评论 -
clickHouse 是什么一个神器
ck 是用于做olap 数据分析的列式数据库管理系统核心理论命令系统架构设计数据结构引擎系统原创 2020-12-17 17:16:46 · 261 阅读 · 1 评论 -
Kubenetes 与 hadoop 的关系是怎样的
Kubenetes 与 hadoop 的关系是怎样的原创 2020-12-16 20:00:10 · 389 阅读 · 0 评论 -
Kerberos 在数据仓库集中的应用是怎们一会儿事
Kerberos 在数据仓库集中的应用是怎们一会儿事原创 2020-12-15 15:55:55 · 86 阅读 · 0 评论 -
数据仓库下的联邦架构是怎么实现的
数据仓库下的联邦架构是怎么实现的原创 2020-12-15 15:53:33 · 295 阅读 · 0 评论 -
供应链研发部和Y事业部 盘点
供应链研发部和Y事业部的同事们:大家好!为了全面提升供应链团队整体工作质量,提高产品、研发、测试各角色协同工作效率,确保研发团队最终交付结果(产品)对我们的客户产生显著价值,并帮助实现我们的愿景:成为行业供应链技术解决方案产品的领导者,大智能供应链团队于2018年10月9日启动了供应链质量提升项目,涉及供应链研发部和Y事业部等相关团队。此前,各团队已经从需求、流程、数据、算法、架构、产品及人...原创 2020-02-12 12:55:25 · 1168 阅读 · 0 评论 -
数据治理
数据治理(DataGovernance),是企业数据治理部门发起并推行的,关于如何制定和实施针对整个企业内部数据的商业应用和技术管理的一系列政策和流程。数据治理是一套持续改善管理机制,通常包括了数据架构组织、数据模型、政策及体系制定、技术工具、数据标准、数据质量、影响度分析、作业流程、监督及考核等内容。“数据治理是目前一个比较新兴的、正在发展的学科,目前业界对它的定义还不完全一样。”数...转载 2019-07-29 21:44:48 · 6341 阅读 · 0 评论 -
数据仓库架构
数据仓库的核心功能从源系统抽取数据,通过清洗、转换、标准化,将数据加载到BI平台,进而满足业务用户的数据分析和决策支持。数据仓库架构包含三个部分:数据架构、应用程序架构、底层设施。...转载 2019-07-29 20:52:34 · 145 阅读 · 0 评论 -
数据仓库|当我们用【维度建模】的时候,我们在建什么?
--引言--为什么要数据建模如果把数据看作图书馆里的书,我们希望看到他们在书架上分门别类的放置;如果把数据看作城市的建筑,我们希望这个城市规划布局能够合理。数据模型就是一种数据组织和存储方法,从业务数据存取和使用的角度,合理地加工存放数据。传统的关系型数据库系统,通常面向的数据操作是随机读写,主要采用满足3NF的ER模型来存储数据,从而在事务处...转载 2019-07-19 20:27:21 · 226 阅读 · 0 评论 -
大数据环境数据仓库&维度建模
目录 数据仓库基本概念 维度建模 缓慢变化维度 拉链表 数据分层 1.1 数据仓库基本概念1.2 维度建模1.3 缓慢变化维度1.4 拉链表1.5 数据分层...转载 2019-07-19 20:26:25 · 623 阅读 · 1 评论 -
数据仓库之维度建模的十大原则
原则1、围绕业务流程构建维度模型业务流程是组织执行的活动,它们代表可测量的事件,如下一个订单或做一次结算,业务流程通常会捕获或生成唯一的与某个事件相关的性能指标,这些数据转换 成事实后,每个业务流程都用一个原子事实表表示,除了单个流程事实表外,有时会从多个流程事实表合并成一个事实表,而且合并事实表是对单一流程事实表的一 个很好的补充,并不能代替它们。原则2、确保每个事实表都有一个与之关联的...转载 2019-07-19 20:25:15 · 208 阅读 · 0 评论 -
大数据和Hadoop时代的维度建模和Kimball数据集市
本文翻译自“Dimensional Modeling and Kimball Data Marts in the Age of Big Data andhadoop”,翻译已获得原作者 Uli Bethke 授权。Uli Bethke 是 Sonra 公司的 CEO,爱尔兰 Hadoop 用户组主席,也是 Oracle 的 ACE。 维度建模已死? 在回答这个问题之前,让我们回头来看...转载 2019-07-19 20:24:12 · 476 阅读 · 0 评论 -
数据仓库维度建模步骤
在商业智能项目的实施过程中,维度建模技术和企业数据仓库建模是两种不同的方法论,以下是以应用驱动、提供快速原型的商业智能项目的实施和规划过程中使用的维度建模方法时的标准实施过程。具体到项目中则根据项目的规模及所涉及的业务范围而有所补充或裁减。1. 商业智能项目规划a) 数据仓库项目的定义及范围b) 项目准备评估c) 业务合理性证明2. 商业智能项目业务需求定义a) 业务需求收集...转载 2019-07-19 09:00:20 · 1665 阅读 · 0 评论 -
HAWQ取代传统数仓实践(十三)——事实表技术之周期快照
https://blog.csdn.net/wzy0623/article/details/72844714一、周期快照简介 周期快照事实表中的每行汇总了发生在某一标准周期,如一天、一周或一月的多个度量。其粒度是周期性的时间段,而不是单个事务。周期快照事实表通常包含许多数据的总计,因为任何与事实表时间范围一致的记录都会被包含在内。在这些事实表中,外键的密度是均匀的,因为即...转载 2019-07-30 16:32:29 · 175 阅读 · 0 评论 -
HAWQ取代传统数仓实践(十四)——事实表技术之累积快照
https://blog.csdn.net/wzy0623/article/details/72867167一、累积快照简介 累积快照事实表用于定义业务过程开始、结束以及期间的可区分的里程碑事件。通常在此类事实表中针对过程中的关键步骤都包含日期外键,并包含每个步骤的度量,这些度量的产生一般都会滞后于数据行的创建时间。累积快照事实表中的一行,对应某一具体业务的多个状态。例如...转载 2019-07-30 16:34:04 · 181 阅读 · 0 评论 -
数据治理之yarn日志解析
package log;import com.alibaba.fastjson.JSON;import com.alibaba.fastjson.JSONArray;import com.alibaba.fastjson.JSONObject;import lombok.extern.slf4j.Slf4j;import org.apache.commons.lang.St...原创 2019-07-21 21:22:28 · 616 阅读 · 0 评论 -
Hive性能调优 内容来自网络
Hive的一般学习者和培训者在谈性能优化的时候一般都会从语法和参数这些雕虫小技的角度谈优化,而不会革命性的优化Hive的性能,产生这种现象的原因有:1,历史原因和思维定势:大家学习SQL的时候一般都是就单机DB,这个时候你的性能优化技巧确实主要是SQL语法和参数调优;2,Hive的核心的性能问题往往是产生在超过规模数据集,例如说100亿条级别的数据集,以及每天处理上千上万个Hive作业的情原创 2017-03-07 21:34:19 · 741 阅读 · 0 评论 -
漫谈数仓第二篇NO.2 数据模型(维度建模)
本文导航前言:model对于数仓是最核心的东西,数据模型是数据组织和存储方法,模型的好坏,决定了数仓能支撑企业业务多久。为什么大多数企业,数仓都要重建,这不仅仅是业务拓展、发展迅速,很大一部分是因为模型建的很烂。01. 基本概念维度建模,是数据仓库大师Ralph Kimball提出的,是数据仓库工程领域最流行的数仓建模经典。维度建模以分析决策的需求出发构建模型,构建的数...转载 2019-09-29 15:17:21 · 368 阅读 · 0 评论 -
hive 计算上月的 年月 yyyy-mm
select substr(add_months(date_sub(sysdate(-1),dayofmonth(sysdate(-1))-1),-2),1,7)原创 2019-08-30 08:12:10 · 2336 阅读 · 1 评论 -
数据治理成功的六大要素
帆软作为全球数据分析和商业智能平台提供商,这几年深刻的感受到了全球数据应用的热潮,但是随着越来越多的客户开始实施并广泛应用BI系统,数据治理的话题也在最近被越来越多地提及和讨论。过去的十年,银行的IT系统经历了数据量高速膨胀的时期,这些海量的、分散在不同角落的异构数据导致了数据资源的价值低、应用难度大等问题。同时,银行内部的业务条线或行政分化也在不断地制造着银行数据交互的断层,而银...转载 2019-07-21 22:36:20 · 371 阅读 · 0 评论 -
数据中台元年,企业数字化转型面临的三大挑战
https://yq.aliyun.com/articles/700844?spm=a2c4e.11153940.0.0.795b3d139umohn随着企业信息化程度越来越高,企业掌握的数据量从原来的TB级发展到PB级,再到EB级甚至往ZB级别发展。数据形式也在从原来的结构化数据为主转变为以日志、视频、图片、语音等非结构化数据为主。然而,数据存储和计算、数据组织的运行都是有成本的。当数据...转载 2019-07-12 14:22:32 · 1000 阅读 · 0 评论 -
Datastage error log 11.3 version
Unknown: DSCGetStrStageProp value (???) of property (PASSWORD) contains unmappable characters (ISO8859-1)when try to run some jobs we met above error ,this error shows sometime原创 2017-08-08 15:34:53 · 397 阅读 · 1 评论 -
数据仓库--数据建模(未完)
嚯,八月原创 2017-08-02 22:11:34 · 487 阅读 · 0 评论 -
几个极简的SQL连接 没毛病
create table temp111(id int,idname varchar(12));create table temp222(id int,idname varchar(12));insert into temp222 values(1,'2000');select t1.*,t2.idnamefrom temp111 t1left jointem原创 2017-05-15 14:43:05 · 286 阅读 · 0 评论 -
Cognos 中 javascript jQuery 的使用
http://www.kuitao8.com/20140730/2884.shtml在做Cognos report 修改过程中遇到的几个jQuery 问题Business Intelligence & bigdata 作为商业发展的重要引擎在企业决策中起到了重要的作用,而这些个所有的信息都需要可视化工具才能够呈现给终端用户,不管使用的工具是付费还是开源框架。在我们项目中我们使用原创 2017-04-18 23:38:36 · 1420 阅读 · 0 评论 -
SQL transformation
SQL transformationhow can we convert single row to multiple row (example)SAP_SALES_ORD_NUM COVERAGE_TERM1122 3 I need result as SAP_SALES_ORD_NUM COVERAGE_TERM1122 11122 21122原创 2017-03-20 13:26:37 · 634 阅读 · 0 评论 -
数据建模
周三保(zhousb@cn.ibm.com) IBM 软件部信息技术专家.简介: 本文的主要内容不是介绍现有的比较流行的主要行业的一些数据模型,而是将笔者在数据仓库建设项目中的一些经验,在这里分享给大家。希望帮助大家在数据仓库项目建设中总结出一套能够合乎目前业界规范的,满足大部分行业数据仓库建设标准的一种方法。所谓水无定势,兵无常法。不同的行业,有不同行业的特点,因此,从业务角度看,其相应转载 2016-11-11 13:20:11 · 19801 阅读 · 0 评论 -
星型模型和雪花型模型比较
请移步原文 http://blog.csdn.net/nisjlvhudy/article/details/7889422一、概述在多维分析的商业智能解决方案中,根据事实表和维度表的关系,又可将常见的模型分为星型模型和雪花型模型。在设计逻辑型数据的模型的时候,就应考虑数据是按照星型模型还是雪花型模型进行组织。当所有维表都直接连接到“ 事实表”上时,整个图解就像星星一样,故将转载 2016-11-10 17:46:56 · 1847 阅读 · 0 评论 -
数据仓库的模型设计
原文地址http://blog.itpub.net/23659908/viewspace-1118762/ Thank you .数据仓库的模型设计A. 数据建模方法论数据仓库模型设计遵循“自顶向下、逐步求精”的设计原则。模型设计分为三个阶段:1,概念模型对业务的范围和使用,从高度上进行抽象概括,也就是划分主题域。一般划分为8个主题域:客户、转载 2016-11-10 17:04:36 · 476 阅读 · 0 评论 -
大数据面试题
1.列举spark 比hadoop 快的原 因 ,以及现在存在的主要问题2.描述下使用spark streaming 和 GraphX实现实时计算的可行性,以及可能会遇到的问题3.GraphX的Pregel API 只支持有向图遍历 ,如何实现无xiang 遍历,描述思路4.SPark 通过yarn 提交任务时,yarn-client & yarn-cluster 的区别原创 2016-10-15 13:36:56 · 1067 阅读 · 0 评论 -
oracle 日期维表 原始版本 带注解
create table d_time_date asSELECT to_number(TO_CHAR(TRUNC(sd + rn), 'YYYYMMDD')) day_id, TRUNC(sd + rn) day_date, to_char(sd + rn, 'YYYY-MM-DD') DAY_CN_DESC, to_char(sd + rn, 'YY原创 2017-10-19 08:58:33 · 1143 阅读 · 1 评论 -
数据中台专栏(六):企业数据指标的那些事儿
https://yq.aliyun.com/articles/630213?spm=a2c4e.11153940.0.0.31854d23uPbGtH袋鼠云数据中台解决方案专家。拥有近10年大数据从业经验,拥有PMP项目管理资格认证,精通数据类项目的开发实施和管理。曾服务过国家工商总局、北京市工商局、北京市财政局、广州开发区大数据局、平湖人社局、海盐人社局等行政单位,担任多个大型数...转载 2019-07-10 21:15:24 · 1145 阅读 · 0 评论 -
数据中台专栏(五):数栈,企业级一站式数据中台PaaS
https://yq.aliyun.com/articles/630212?spm=a2c4e.11153940.0.0.bf6f3266caw5Zi2014年还在阿里云的时候,内部有一个5K+的项目,集合了当时CDO的多支团队在北京联合关小黑屋,希望能够将内部广泛使用的一套大数据开发工具打造成在公共云上对外服务的大数据PaaS。事后来看,这个项目当时有很多争执,也算不上多成功,尤...转载 2019-07-10 21:13:44 · 792 阅读 · 0 评论 -
数据中台专栏(三):数据质量分析及提升
https://yq.aliyun.com/articles/604574?spm=a2c4e.11153940.0.0.105710b5BgpxIj管理引起的数据质量问题 :公司核心部门对某数据做了物理删除 ,不留痕迹 :譬如在 2月 29 号 下单了 ,但是 3月一号 进行数据删除 从总体来说 2月 3月 应该少一条数据 ,但是因为删除了 其实 这个数据是多余出来...转载 2019-07-10 20:36:13 · 1348 阅读 · 0 评论 -
袋鼠云数据中台专栏(一) :浅析数据中台策略与建设实践
袋鼠云数据中台专栏(一) :浅析数据中台策略与建设实践https://yq.aliyun.com/articles/604571?spm=a2c4e.11153940.0.0.22e27e09zv9TC0正文:数据中台是什么?数据中台建设的价值在哪里?数据中台和传统数仓还有数据中心有什么区别?这几乎是笔者最近被别人问到的最多的问题。之所以有这些疑问,其一是不懂的同学真...转载 2019-07-09 16:07:39 · 505 阅读 · 0 评论 -
袋鼠云数据中台专栏V2.0 | 数据中台之数据集成
https://yq.aliyun.com/articles/704530?spm=a2c4e.11153959.0.0.6ff3147cD21S8j关于袋鼠云数据中台专栏V2.0数据中台如何定义?企业数据化与数据中台的关系是什么?数据中台如何支撑企业战略转型?袋鼠云近两年来,先后为国内数十家大型龙头企业提供数据中台咨询与实施落地服务,积累了大量的实战经验,同时也在为客户服务的...转载 2019-07-09 11:30:59 · 985 阅读 · 0 评论 -
数据中台专栏(四):数据中台设计与数据资产管理
https://yq.aliyun.com/articles/630211袋鼠云大数据解决方案专家。专注于云计算、大数据、企业级技术架构(EA)等领域,在互联网、零售、工业等行业有深入的理解和丰富的从业经验,曾带领项目团队完成中金易云、货币网、固德威等企业级大数据项目交付,擅长行业大数据解决方案的咨询与落地。正文:正文企业的发展,往往伴随着业务更多元化,也必然会促进更多的业...转载 2019-07-09 09:34:32 · 7786 阅读 · 0 评论 -
袋鼠云数据中台专栏2.0 | 数据中台之数据源
https://yq.aliyun.com/articles/702044?spm=a2c4e.11153940.0.0.462232660nZavj当今企业在发展和经营的过程中,「信息化」早已是建设标准,在企业运作的过程中,或多或少地,积累了很多数据。在进入到DT时代,数据成为企业未来成长的引擎也越来越被认可。有先见之明的企业更注重于从方方面面来收集各项数据。我们今天的话题就以数据产生...转载 2019-07-09 09:21:34 · 560 阅读 · 0 评论 -
数据资产 治理 目录划分
在数据资产治理过程中 ,其中特别重要的是一项工程就是打通数据上下游的关系 ,并对其中的每一层次加上相应的类别,在这个过程中我们遇到对业务数据库进行分类的任务目前的数据库不具备直接划分的依据和原则 ,需要整合下找到每个库下面的所有的表 ,提取表的表名和表的注释 ,并进行数据分词1.数据源目录划分:使用的技术主要是莱文斯坦比率和图计算(igraph/networkx) ,前者用来计算两...原创 2019-03-12 09:58:19 · 9474 阅读 · 0 评论