大数据
人生之光荣在于屡仆屡起
这个作者很懒,什么都没留下…
展开
-
hive的优化
分类: Hive系列undefined概述1.1 hive的特征:可以通过SQL轻松访问数据的工具,从而实现数据仓库任务,如提取/转换/加载(ETL),报告和数据分析;它可以使已经存储的数据结构化;可以直接访问存储在Apache HDFS或其他数据存储系统(如Apache HBase)中的文件;Hive除了支持MapReduce计算引擎,还支持Spark和Tez这两种分布式计算引擎;它提供类似sql的查询语句HiveQL对数据进行分析处理;数据的存储格式有多种,比如数据源是二进制格式,普原创 2020-12-02 11:55:14 · 295 阅读 · 0 评论 -
数据集市与数据仓库的区别
1.什么是数据集市?数据集市与数据仓库的区别? 数据仓库(Data Warehouse)是一个面向主题的(Subject Oriented)、集成的( Integrate )、相对稳定的(Non -Volatile )、反映历史变化( Time Variant)的数据集合用于支持管理决策。对于数据仓库的概念我们可以从两个层次予以理解,首先,数据仓库用于支持决策,面向分析型数据处理,它不同于企业现有的操作型数据库;其次,数据仓库是对多个异构的数据源有效集成,集成后按照主题进行了重...原创 2020-12-01 08:38:41 · 11596 阅读 · 0 评论 -
Kafka的简介与结构
Kafka学习之路 (一)Kafka的简介目录一、简介 1.1 概述 1.2 消息系统介绍 1.3 点对点消息传递模式 1.4 发布-订阅消息传递模式 二、Kafka的优点 2.1 解耦 2.2 冗余(副本) 2.3 扩展性 2.4 灵活性&峰值处理能力 2.5 可恢复性 2.6 顺序保证 2.7 缓冲 2.8 异步通信 三、常用Message Queue对比 3.1 RabbitMQ 3.2 Redis 3.3 .原创 2020-11-30 17:07:44 · 154 阅读 · 0 评论 -
数据库分层设计概述
一、文章主题本文主要讲解数据仓库的一个重要环节:如何设计数据分层!其它关于数据仓库的内容可参考之前的文章。【漫谈数据仓库】 如何优雅地设计数据分层本文对数据分层的讨论适合下面一些场景,超过该范围场景 or 数据仓库经验丰富的大神就不必浪费时间看了。数据建设刚起步,大部分的数据经过粗暴的数据接入后就直接对接业务。数据建设发展到一定阶段,发现数据的使用杂乱无章,各种业务都是从原始数据直接计算而得。各种重复计算,严重浪费了计算资源,需要优化性能。二、文章结构最初在做数据仓库的时候遇到了很多坑,由于原创 2020-11-28 10:02:40 · 1534 阅读 · 0 评论 -
数仓事实表与维度表
事实表:1.0事务事实表:(->明细事实表->聚合事实表)记录的是事务层面的事实,保存的是最原子的数据,也叫做“原子事实表”。事务事实表中的数据在事务事件发生后产生,数据的粒度通常是每个事务一条记录。一旦事务被提交,事实表数据被插入,数据就不再进行更改,其更新方式为增量更新。1.1.0明细事实表(单事件事实表,流程事实表): 一般位于DWD层,该层事实表设计不进行聚合,汇总等动作,仅做数据规范化,数据降维动作,同时数据保持业务事务粒度,确保数据信息无丢失。单事件事实表:1.更方便跟踪业原创 2020-11-28 09:51:48 · 477 阅读 · 0 评论 -
逻辑回归与随机森林
1.逻辑回归逻辑回归从统计学的角度看属于非线性回归中的一种,它实际上是一种分类方法,主要用于两分类问题Regression问题的常规步骤为:寻找h函数(即假设估计的函数);构造J函数(损失函数);想办法使得J函数最小并求得回归参数(θ);数据拟合问题1)利用了Logistic函数(或称为Sigmoid函数),函数形式为最常见的1.png2)代价函数J下面的代价函数J之所有前面加上1/m是为了后面”梯度下降求参数θ时更方便“,也即这里不加1/m也可以。2.png原创 2020-11-05 17:46:00 · 3101 阅读 · 0 评论 -
sqoop从安装到操作
一.sqoop的简单概论1.sqoop产生的原因:A. 多数使用hadoop技术的处理大数据业务的企业,有大量的数据存储在关系型数据中。B. 由于没有工具支持,对hadoop和关系型数据库之间数据传输是一个很困难的事。依据以上的原因sqoop产生的。2. sqoop的介绍sqoop是连接关系型数据库和hadoop的桥梁,主要有两个方面(导入和导出):A. 将关系型数据库的数据导入到Hadoop 及其相关的系统中,如 Hive和HBaseB. 将数据从Hadoop 系统里抽取并原创 2020-10-20 11:57:19 · 330 阅读 · 3 评论