![](https://img-blog.csdnimg.cn/20201014180756926.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
Data Warehouse
海南中剑1989
这个作者很懒,什么都没留下…
展开
-
大数据--计算引擎分类
第一代计算引擎首先第一代的计算引擎,无疑就是 Hadoop 承载的 MapReduce。这里大家应该都不会对 MapReduce 陌生,它将计算分为两个阶段,分别为 Map 和 Reduce。对于上层应用来说,就不得不想方设法去拆分算法,甚至于不得不在上层应用实现多个 Job 的串联,以完成一个完整的算法,例如迭代计算第二代计算引擎由于这样的弊端,催生了支持 DAG 框架的产生。因此,支持 D原创 2017-06-27 15:16:43 · 5818 阅读 · 0 评论 -
HDFS--unable to create new native thread
Exception展示unable to create native thread引发,读取block,stream closed引发,发生一系列io异常引发,namenode kill datanode分析发生此种情况,因为需要写入hdfs的进程数多于linux分配给hdfs可操作的进程数,分配的进程数都被占用了,不够重新创建。现在提供两种解决思路: ...原创 2018-05-29 10:49:40 · 663 阅读 · 0 评论 -
YARN--CapacityScheduler 多用户资源隔离
前提采用Cloudera Manager管理集群yarn.resourcemanager.scheduler.class 选择CapacityScheduler配置截图 配置<configuration> <!-- root队列下default、hive两个队列 --> <property> <nam原创 2018-06-28 18:50:16 · 1196 阅读 · 0 评论 -
kafka consumer zookeeper 交互逻辑
consumer操作 1. kafka各组件通信采用TCP协议。broker端口号:9092,zookeeper端口号:2181。 2. consumer启动时(绿色虚线),与brokers建立一个TCP长连接,生成SimpleConsumer实例,并返回broker配置文件中的域名。 3. consumer根据域名访问brokers获取topic、partition、offset...原创 2018-09-12 19:58:25 · 4358 阅读 · 3 评论 -
CDH5.12.2安装phoenix
前提操作系统: CentOS 7.4 64位阿里云实例*6台准备JDK环境欢迎使用Markdown编辑器你好! 这是你第一次使用 Markdown编辑器 所展示的欢迎页。如果你想学习如何使用Markdown编辑器, 可以仔细阅读这篇文章,了解一下Markdown的基本语法知识。新的改变我们对Markdown编辑器进行了一些功能拓展与语法支持,除了标准的Markdown编辑器...原创 2018-09-27 14:08:18 · 696 阅读 · 0 评论 -
SYSTEM:CATALOG is found but client does not have phoenix.schema.isNamespaceMappingEnabled enabled
问题Inconsistent namespace mapping properties. Cannot initiate connection as SYSTEM:CATALOG is found but client does not have phoenix.schema.isNamespaceMappingEnabled enabled详细展示java.sql.SQLExcepti...原创 2019-01-24 12:12:48 · 7116 阅读 · 0 评论 -
ClassNotFoundException: Class org.apache.phoenix.mapreduce.PhoenixOutputFormat not found
问题ClassNotFoundException: Class org.apache.phoenix.mapreduce.PhoenixOutputFormat not found详细展示Exception in thread "main" java.lang.RuntimeException: java.lang.ClassNotFoundException: Class org.ap...原创 2019-01-24 15:27:45 · 1175 阅读 · 2 评论 -
spak-submit提交参数
spark-submit参数说明参数名格式参数说明–masterMASTER_URLspark://host:port, mesos://host:port, yarn, yarn-cluster,yarn-client, local–deploy-modeDEPLOY_MODEClient或者master,默认是client–classCLASS_...原创 2019-01-29 15:37:24 · 460 阅读 · 0 评论 -
phoenix与squirrel-sql结合或phoenix-sqlline.py启动后展示查询时区Timezone差8个小时问题
场景(1):spark程序中使用java.sql.Timestamp插入phoenix表结构为register_time(Timestamp)。(2):squirrel-sql中使用此种方式查询select register_time,register_date from user where register_time= to_timestamp(‘2016-01-21 12:15:34’...原创 2019-02-26 11:46:06 · 1688 阅读 · 0 评论 -
调度--Airflow--webserverUI delete dag
前提条件 airflow目前采用version=1.9。查看官方版本,airflow 1.8 要想删除dag还是非常麻烦的,1.9版本相对容易删除一些,官网描述从1.0版本开始,支持airflow delete_dag 命令行删除。下面介绍一种1.9版本删除dag的方式删除/usr/lib/python2.7/site-packages/airflow/example_dags下 .py...原创 2018-06-11 14:58:01 · 1999 阅读 · 0 评论 -
HIVE--NoSuchMethodException: org.apache.hadoop.hive.ql.metadata.Hive.loadDynamicPartitions
Exception展示Exception in thread "main" java.lang.NoSuchMethodException: org.apache.hadoop.hive.ql.metadata.Hive.loadDynamicPartitions(org.apache.hadoop.fs.Path, java.lang.String, java.util.Map, boo...原创 2018-05-10 11:44:25 · 6369 阅读 · 1 评论 -
Elasticsearch
参考文档:https://es.xiaoleilu.com/010_Intro/10_Installing_ES.html参看文档(建议):https://www.elastic.co/guide/cn/elasticsearch/guide/current/index.htmles client文档参考:http://blog.csdn.net/geloin/article/details/844原创 2017-08-03 15:15:40 · 402 阅读 · 0 评论 -
Mysql 实时数据同步到 kafka、hdfs
Mysql 实时数据同步到 分布式存储系统原创 2017-08-14 18:12:02 · 6823 阅读 · 4 评论 -
STORM-消息一致性保证
storm提供几个不同的保证消息处理的机制 (1):尽最大努力处理 (2):至少一次处理 (3):只有一次处理tuple树,处理消息过程中,关注消息的超时时间Config.TOPOLOGY_MESSAGE_TIMEOUT_SECS spout 从kafka读取消息(需要一个队列) bolt 从spout读取消息(需要一个队列) 而不是spout消息发送给boltspout 调用nextTu原创 2017-11-23 16:40:10 · 710 阅读 · 0 评论 -
Apache Hadoop YARN
YARN架构结构yarn是基于Master/Slave模式的分布式架构,yarn的架构结构如图:【1】:client【2】:ResourceManager(RM),主要有两个组件,Scheduler和ApplicationManager(AM)。2.4.0版本后新增了RM HA特性。 Scheduler:调度器,负责将内存、cpu、磁盘、网络IO分配给各个NM。 Applica原创 2018-03-01 15:09:18 · 365 阅读 · 1 评论 -
apache hbase 官方翻译版
hbase官方文档:http://hbase.apache.org/欢迎来到 Apache hbasehbase是hadoop数据库,一个分布式的、可伸缩的、大数据存储系统。 hbase应用在随机、实时读写大量数据的业务场景下,这个项目目标在集群上支持非常大的表(10亿级别的行数、百万级别的列数)。hbase是一个开源的、版本化的、非关系型的数据库。hbase依赖在hdfs之上。...原创 2018-04-02 11:38:33 · 712 阅读 · 0 评论 -
构建数据仓库考虑哪些问题
构建数据仓库考虑哪些问题?数据粒度问题 目前ODS层数据粒度在行记录级别,粒度级别越低,查询范围越广,粒度越高,查询越少。数据仓库技术问题 管理大量数据并且能够将其管理好的能力。管理多种介质,磁盘–》近线存储(光盘,磁带等)–》存档存储索引及监控数据,能够支持灵活和不可预测的数据访问。例如索引、二级索引等。多种技术的接口,操作型环境抽取到数据仓库,从数据仓库集成数据集市。甚至包换...原创 2018-04-02 18:54:03 · 2170 阅读 · 0 评论 -
数据仓库发展过程
参考文档:https://yq.aliyun.com/articles/154348(1):前期一般先启动olap服务,数据仓库存储,使用hadoop集群 (2):小型期,引入oltp,执行实时计算。hbase、hadoop集群使用一个集群(数据级别非重复数据10T级别) (3):中期,伴随olap压力的增大,影响oltp实时计算,顾数据仓库拆分为olap数据仓库(一般采用hadoop...原创 2018-04-03 12:04:48 · 652 阅读 · 0 评论 -
数据抽象过程和数据模型
- 数据抽象过程 【1】:概念模型设计阶段,分析用户需求,设计概念模型。 【2】:逻辑模型设计阶段,将概念模型转换为逻辑模型 【3】:物理模型设计阶段,数据库/数据仓库实现时,根据逻辑模型设计物理模型- 概念模型:数据的整体逻辑结构 关系模型:关系型数据库、数据仓库一般采用实体建模法- 逻辑模型: 层次模型: 网状模型: 关系模型:关系型数据库采用关系模型,使用范式...原创 2018-04-23 23:23:57 · 5747 阅读 · 0 评论 -
数据仓库主要功能?
数据仓库主要功能?ETL设计:数据的抽取同步、数据清洗、数据转换。涉及关系型数据库(mysql、mariadb、oracle等),文档型数据库(mongodb、elasticsearch等)。数据分层:一般划分为ODS层、CM层、ML层。ODS层表示未进行加工的数据。CM层表示清洗合并层的数据。数据初步建模:对应数据分层ML层,一般采用关系模型(雪花模型)或星型模型,形成宽表对外提供数据...原创 2019-10-01 17:57:54 · 5034 阅读 · 0 评论