- 博客(16)
- 资源 (1)
- 收藏
- 关注
原创 Kylin构建cube进度停止不前
Kylin™是一个开源的、分布式的分析型数据仓库,提供 Hadoop 之上的 SQL 查询接口及多维分析(OLAP)能力以支持超大规模数据,最初由eBay Inc.开发并贡献至开源社区。项目上使用Kylin进行数据分析,数据的多维度预计算,提高前台数据展示效率。
2024-01-29 13:55:05 458
原创 Kylin cube重建
Apache Kylin™是一个开源的、分布式的分析型数据仓库,提供Hadoop/Spark 之上的 SQL 查询接口及多维分析(OLAP)能力以支持超大规模数据,最初由 eBay 开发并贡献至开源社区。它能在亚秒内查询巨大的表。Kylin 在创建好多维立方体Cube后,底表数据变更更新,需要更新全部Kylin Cube数据,如何批量化重建Cube?
2024-01-29 11:38:20 405
原创 数据仓库模型设计:从架构到实践的全方位指南
数仓主题是指通过“上帝视角”将企业不同业务流程信息进行分类、汇总,然后对其进行分析利用的一个抽象化概念。也是企业中某一分析领域具体的分析对象,每个数仓分析领域都又一个数仓主题相呼应。
2024-01-26 14:34:31 1337 1
原创 Sqoop使用详解
1.概述本文主要对SQOOP的使用进行了说明,Sqoop是Hadoop和关系数据库服务器之间传送数据的一种工具。它是用来从关系数据库如:MySQL,Oracle到Hadoop的HDFS/HIVE,并从Hadoop中导出数据到关系数据库。Sqoop支持从MYSQL导入到HDFS/HIVE/HBASE,也支持从以上三个大数据平台中导出到MYSQL。
2024-01-22 09:50:11 841
原创 基于大数据平台的kylin安装部署手册
Apache Kylin™是一个开源的、分布式的分析型数据仓库,提供Hadoop/Spark 之上的 SQL 查询接口及多维分析(OLAP)能力以支持超大规模数据,最初由 eBay 开发并贡献至开源社区。它能在亚秒内查询巨大的表。
2024-01-21 23:14:24 2453
原创 SVN版本管理工具搭建
Subversion (SVN) 是一个版本控制系统,相对于的 RCS、CVS,采用了分支管理系统,它的设计目标就是取代 CVS。互联网上免费的版本控制服务多基于 Subversion。
2024-01-21 09:38:45 391
原创 数据集市(Data Mart)
数据集市 (Data Mart)是一个针对某个主题、某个部门或者某些特殊用户而进行分类的数据集合,也称为“小数据仓库”或“部门级的数据仓库“。首先建立企业级的数据仓库,然后从企业级的数据仓库中为各个部门抽取必要的数据建立部门级的数据集市。1、从数据集市入手,就某一个特定的主题,先做独立数据集市,当数据集市达到一定规模,再从各个数据集市进行数据的整合建立企业级的数据仓库。缺点:可能会导致信息孤岛的存在,不能以全局的视角去分析数据、可能会存在大量冗余数据。2、数据集市包含了能够从数据源获取的全部的明细数据。
2024-01-19 14:16:49 975
原创 数据仓库 (Data Warehouse,DW)
ODS: Operational DataStore,操作数据存储,一个面向主题的、集成的、可变的、当前的细节数据集合用于支持即时性、操作型、集成性的信息需求。数据仓库是面向主题设计的,设计目的是为了分析数据,一般存储的是历史数据,但在设计时有意引入几余,采用反范式的方式来设计。数据仓库是一个面向主题的、集成的、非易失的、 反应历史变化的、用来支持企业管理决策的数据集合。数据仓库的数据是随时间而变化的,会定期接收新的集成数据,从而反应出最新的数据变化。通过大量的预处理来提升应用系统的用户体验、分析效率。
2024-01-19 11:33:03 1206
原创 信创-国产数据库-认证考试-实测好考
这里会定期举办GBase产品的认证培训,有GBase8a、GBase8c、GBase8s,大家可以登录下面网址看看最新的培训公告,参加报名,网上授课,且没有时间限制,自由安排学习时间,一般一周左右完成,且会给 50考试券(相当于免费认证),需要纸质证书,则会给20的优惠券,80块包邮到家,我觉得一般没必要,电子版即可。,虽然是免费的,一般工作人员都会说需要 ”贵公司的销售联系“ ,如果你就这样子了,估计也就只能学学得了,我追问了下个人怎么参加认证,然后就给我开通了认证权限。有两个可以薅,免费,且易考。
2024-01-18 16:35:11 2335 1
原创 大数据之Kylin
Apache Kylin™是一个开源的、分布式的分析型数据仓库,提供 Hadoop 之上的 SQL 查询接口及多维分析(OLAP)能力以支持超大规模数据,最初由eBay Inc.开发并贡献至开源社区。
2020-07-13 13:46:18 748 1
原创 Canal安装文档
Canal:canal是阿里巴巴旗下的一款开源项目,纯Java开发。基于数据库增量日志解析,提供增量数据订阅&消费,目前主要支持了MySQL(也支持mariaDB)。
2020-04-17 10:41:50 1009
原创 Kerberos安全认证
CDH启用kerberos参考链接: https://www.cloudera.com/documentation/enterprise/5-8-x/topics/security.html_kerberosadd_policy。Principal(hdfs,yarn,,hbase,hive等)的更新生命期等,点击“继续”进入Cloudera Manager的“管理”-> “安全”界面->启用Kerberos。必须和之前创建的账号一致,点击“继续”,等待启用Kerberos完成,点击“继续”
2020-04-17 10:33:26 611
原创 MR和Spark的比较
3、spark是粗粒度资源申请,也就是当提交spark application的时候,application会将所有的资源申请完毕,如果申请不到资源就等待,如果申请到资源才执行application,task在执行的时候就不需要自己去申请资源,task执行快,当最后一个task执行完之后task才会被释放。MapReduce中计算结果需要落地,保存到磁盘上,这样势必会影响整体速度,而Spark支持DAG图的分布式并行计算的编程框架,减少了迭代过程中数据的落地,提高了处理效率。最后,Spark更加通用。
2020-03-21 18:42:29 1820 1
中级 系统集成项目管理工程师.zip
2024-01-19
人大金仓KingbaseESv8 KCA,KCP模拟题
2024-01-18
CDH_5.15.1开启kerberos认证.docx
2020-04-17
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人