数据仓库主要功能? 数据仓库主要功能?ETL设计:数据的抽取同步、数据清洗、数据转换。涉及关系型数据库(mysql、mariadb、oracle等),文档型数据库(mongodb、elasticsearch等)。数据分层:一般划分为ODS层、CM层、ML层。ODS层表示未进行加工的数据。CM层表示清洗合并层的数据。数据初步建模:对应数据分层ML层,一般采用关系模型(雪花模型)或星型模型,形成宽表对外提供数据...
phoenix与squirrel-sql结合或phoenix-sqlline.py启动后展示查询时区Timezone差8个小时问题 场景(1):spark程序中使用java.sql.Timestamp插入phoenix表结构为register_time(Timestamp)。(2):squirrel-sql中使用此种方式查询select register_time,register_date from user where register_time= to_timestamp(‘2016-01-21 12:15:34’...
spak-submit提交参数 spark-submit参数说明参数名格式参数说明–masterMASTER_URLspark://host:port, mesos://host:port, yarn, yarn-cluster,yarn-client, local–deploy-modeDEPLOY_MODEClient或者master,默认是client–classCLASS_...
ClassNotFoundException: Class org.apache.phoenix.mapreduce.PhoenixOutputFormat not found 问题ClassNotFoundException: Class org.apache.phoenix.mapreduce.PhoenixOutputFormat not found详细展示Exception in thread "main" java.lang.RuntimeException: java.lang.ClassNotFoundException: Class org.ap...
SYSTEM:CATALOG is found but client does not have phoenix.schema.isNamespaceMappingEnabled enabled 问题Inconsistent namespace mapping properties. Cannot initiate connection as SYSTEM:CATALOG is found but client does not have phoenix.schema.isNamespaceMappingEnabled enabled详细展示java.sql.SQLExcepti...
CDH5.12.2安装phoenix 前提操作系统: CentOS 7.4 64位阿里云实例*6台准备JDK环境欢迎使用Markdown编辑器你好! 这是你第一次使用 Markdown编辑器 所展示的欢迎页。如果你想学习如何使用Markdown编辑器, 可以仔细阅读这篇文章,了解一下Markdown的基本语法知识。新的改变我们对Markdown编辑器进行了一些功能拓展与语法支持,除了标准的Markdown编辑器...
kafka consumer zookeeper 交互逻辑 consumer操作 1. kafka各组件通信采用TCP协议。broker端口号:9092,zookeeper端口号:2181。 2. consumer启动时(绿色虚线),与brokers建立一个TCP长连接,生成SimpleConsumer实例,并返回broker配置文件中的域名。 3. consumer根据域名访问brokers获取topic、partition、offset...
为什么互金平台资金存管了,就安全了? 最近多家互金平台接连“爆雷”,引起投资人恐慌性情绪蔓延,监管层和互金协会接连发出合规信号,合规内容中经常提到“资金存管”。今天咱们就聊聊,什么是资金存管?资金存管了就安全吗?那什么是资金存管呢?投资人的资金不直接充值到互金平台,而是在存管银行开设账户。资金充值到该账户中,平台通过债券匹配的方式,将该笔资金出让给借款人。资金存管主要是防止平台自融资金,避免用户资金损失。估计说的有些绕,咱们用...
YARN--CapacityScheduler 多用户资源隔离 前提采用Cloudera Manager管理集群yarn.resourcemanager.scheduler.class 选择CapacityScheduler配置截图 配置<configuration> <!-- root队列下default、hive两个队列 --> <property> <nam
调度--Airflow--webserverUI delete dag 前提条件 airflow目前采用version=1.9。查看官方版本,airflow 1.8 要想删除dag还是非常麻烦的,1.9版本相对容易删除一些,官网描述从1.0版本开始,支持airflow delete_dag 命令行删除。下面介绍一种1.9版本删除dag的方式删除/usr/lib/python2.7/site-packages/airflow/example_dags下 .py...
网络原理--物理层 物理层接口与协议物理层接口 物理层只关心比特流的传输,而不涉及比特流的控制。 DTE:数据终端设备,DCE:数据通信设备物理层功能机械特性电气特性信号的功能特性规程特性物理层协议EIA RS-232C接口EIA RS-449接口100系列和200系列接口标准X.21传输介质 双绞线同轴电缆光纤无线传输介质数据通信技术 通信信道 数据传输速率信道容...
HDFS--unable to create new native thread Exception展示unable to create native thread引发,读取block,stream closed引发,发生一系列io异常引发,namenode kill datanode分析发生此种情况,因为需要写入hdfs的进程数多于linux分配给hdfs可操作的进程数,分配的进程数都被占用了,不够重新创建。现在提供两种解决思路: ...
HIVE--NoSuchMethodException: org.apache.hadoop.hive.ql.metadata.Hive.loadDynamicPartitions Exception展示Exception in thread "main" java.lang.NoSuchMethodException: org.apache.hadoop.hive.ql.metadata.Hive.loadDynamicPartitions(org.apache.hadoop.fs.Path, java.lang.String, java.util.Map, boo...
互联网金融行业认知 社会总资产端==等于==社会总资金端 注释:社会上全部理财资金理论上等于社会上全部贷款资金假如银行的储蓄资金少了,会发生什么事情?银行以3%吸收社会资金,再向社会提供贷款。以标准公积金年利率为准为4.9%。互联网金融行业同样以5%~12%年化利率吸收社会资金,再向社会公众贷款,参考年利率9%~36%。可以知道银行相对其他渠道面相社会(企业和大众群众)能够提供较低的贷款。从而企业和个人拿到...
数据抽象过程和数据模型 - 数据抽象过程 【1】:概念模型设计阶段,分析用户需求,设计概念模型。 【2】:逻辑模型设计阶段,将概念模型转换为逻辑模型 【3】:物理模型设计阶段,数据库/数据仓库实现时,根据逻辑模型设计物理模型- 概念模型:数据的整体逻辑结构 关系模型:关系型数据库、数据仓库一般采用实体建模法- 逻辑模型: 层次模型: 网状模型: 关系模型:关系型数据库采用关系模型,使用范式...
数据仓库发展过程 参考文档:https://yq.aliyun.com/articles/154348(1):前期一般先启动olap服务,数据仓库存储,使用hadoop集群 (2):小型期,引入oltp,执行实时计算。hbase、hadoop集群使用一个集群(数据级别非重复数据10T级别) (3):中期,伴随olap压力的增大,影响oltp实时计算,顾数据仓库拆分为olap数据仓库(一般采用hadoop...
构建数据仓库考虑哪些问题 构建数据仓库考虑哪些问题?数据粒度问题 目前ODS层数据粒度在行记录级别,粒度级别越低,查询范围越广,粒度越高,查询越少。数据仓库技术问题 管理大量数据并且能够将其管理好的能力。管理多种介质,磁盘–》近线存储(光盘,磁带等)–》存档存储索引及监控数据,能够支持灵活和不可预测的数据访问。例如索引、二级索引等。多种技术的接口,操作型环境抽取到数据仓库,从数据仓库集成数据集市。甚至包换...
apache hbase 官方翻译版 hbase官方文档:http://hbase.apache.org/欢迎来到 Apache hbasehbase是hadoop数据库,一个分布式的、可伸缩的、大数据存储系统。 hbase应用在随机、实时读写大量数据的业务场景下,这个项目目标在集群上支持非常大的表(10亿级别的行数、百万级别的列数)。hbase是一个开源的、版本化的、非关系型的数据库。hbase依赖在hdfs之上。...