大数据
HW_870754395
这个作者很懒,什么都没留下…
展开
-
数据仓库系列(一)
数据仓库一、 什么是数据仓库?二、数据仓库的特点1. 主题性2. 集成性3. 稳定性4. 时变性三、数据仓库组件1. 业务系统2. ETL(Extract-Transform-Load)3. 前端应用四、主流的数据仓库1. Hive介绍(1)HDFS(2)MapReduce2. Hive的优势(1)免费3. 知名的商业数据仓库(1)Teradata优点(2)Teradata缺点一、 什么是数据仓...原创 2019-05-15 09:52:05 · 532 阅读 · 0 评论 -
OLAP和OLTP的区别
OLAP和OLTP的区别数据处理分类:OLAP(Online Analytical Processing,联机分析处理)OLTP(Online transaction processing,联机事务处理)数据处理分类:OLAP(Online Analytical Processing,联机分析处理)数据仓库系统的主要应用,支持复杂的分析操作,侧重决策支持,并且提供直观易懂的查询结果。实时...转载 2019-06-22 17:25:43 · 182 阅读 · 0 评论 -
大数据平台技术栈——技术全貌(一)
各层介绍:添加链接描述转载 2019-07-18 08:49:35 · 2856 阅读 · 0 评论 -
大数据之spark开发环境搭建(基于idea 和maven)
spark开发环境搭建(基于idea 和maven)转载 2019-07-25 13:22:47 · 688 阅读 · 0 评论 -
大数据之spark面试题
大数据之spark面试题一、RDD1. 什么是RDD? "弹性"体现在哪里?RDD存在的缺陷?2. RDD支持几种常见操作?分别是什么?有和区别?举例3. RDD有多少种持久化方式?memory_only如果内存存储不了,会如何操作?一、RDD1. 什么是RDD? "弹性"体现在哪里?RDD存在的缺陷?(1)RDD(Resilient Distributed Dataset, 弹性分布式数据...原创 2019-07-25 19:39:58 · 769 阅读 · 0 评论 -
大数据之hive(一)
大数据之hive(一)一、hive简介1. Hive是什么?2. hive的优缺点(1)优点:(2)缺点:3. hive架构原理一、hive简介1. Hive是什么?hive是基于hadoop的一个数据仓库工具,可以将结构化的数据文件映射为一张表,并提供类SQL查询功能。它所有的数据都存储在hadoop兼容的文件系统中。hive在加载数据过程不会对数据进行任何修改,只是将数据移动到hdf...翻译 2019-07-22 18:12:30 · 301 阅读 · 0 评论 -
大数据之spark数据分区
大数据之spark数据分区1. 为什么要分区2. 举例说明:1. 为什么要分区spark可以通过分区来减少网络通信开销:分区并非对于所有场景都是有好处的:若给定RDD只被扫描一遍,那么完全没必要做分区,只有当数据多次在诸如链接这种基于键的操作时,分区才会有帮助。2. 举例说明:假设我们有一份不变的大文件userData,以及每5分钟产生的小数据events,现要求:每5分钟产...原创 2019-07-26 14:34:04 · 435 阅读 · 0 评论 -
大数据之hive各种表(二)
大数据之hive各种表(二)一、外部表和内部表1. 内部表(managed table)2. 外部表(external table)二、分区表和桶表1. 分区(partioned)2. 分桶(clustered)一、外部表和内部表1. 内部表(managed table)默认创建的是内部表 create table xxx(xx xxx)存储位置在 hive.metastore.ware...转载 2019-07-23 11:38:23 · 259 阅读 · 0 评论 -
大数据之hive文件格式(三)
大数据之hive文件格式(三)一、hive文件存储格式分类:1. 列式存储和行式存储(1)行式存储(2)列式存储2. textfile3. sequencefile4. rcfile5. orcfile6. Hive ROW FORMAT三、hive写入数据的方式1. 从本地文件系统中导入数据到hive表2. 从hdfs上导入数据到hive表3. 从别的表查询出相应的数据并导入到hive表中4. ...转载 2019-07-23 14:25:01 · 437 阅读 · 0 评论 -
hive与关系型数据库的比较
hive与关系型数据库比较转载转载 2019-06-20 17:42:39 · 541 阅读 · 0 评论 -
数据仓库之事实表
数据仓库之事实表一、事实表分类(1) 事务事实表2. 周期快照事实表3. 累积快照事实表二、三种事实表的区别一、事实表分类事实表是指其中保存了大量业务度量数据的表。事实表中的度量值一般称为事实。事实表中最有用的事实就是数字类型的事实和可加类型的事实。事实表的粒度决定了数仓中数据的详细程度。(1) 事务事实表一条记录代表了业务系统中的一个事件。事务出现后,就会在事实中出现一条记录。以订单域举...原创 2019-06-04 17:38:37 · 4324 阅读 · 0 评论 -
数据仓库之拉链表
数据仓库之拉链表一、常用表介绍1. 全量表2. 增量表3. 拉链表4. 流水表5. 拉链表 VS 流水表二. 拉链表适用情况及优点1. 适用情况2. 优点三. 拉链表举例(订单域)1. 订单表结构2. 为实现订单表存储,常用解决方案及存在问题(1)快照表(2)全量历史表==(3)历史拉链表==一、常用表介绍1. 全量表每天的所有的最新状态的数据2. 增量表每天的新增数据3. 拉链表维...转载 2019-06-03 21:54:40 · 4366 阅读 · 0 评论 -
大数据-数据仓库维度建模
数据仓库维度建模一、维度建模(dimensional modeling)1. 维度表(dimension)2. 事实表(fact table)二、维度建模的三种模式1. 星形模式(Star Schema)2. 雪花模式(Snowflake Schema)3. 星座模式(Fact Constellations Schema)4. 模式对比一、维度建模(dimensional modeling)是...原创 2019-05-15 11:09:22 · 1968 阅读 · 0 评论 -
win10上部署hadoop
win10上部署hadoop1. 前期准备2. 安装hadoop(1)[hadoop-2.7.3下载地址](https://archive.apache.org/dist/hadoop/common/hadoop-2.7.3/)(2) 解压到某一文件夹(3) 配置环境变量(4) [下载hadooponwindow](https://www.cnblogs.com/du-blog/p/5998388...原创 2019-05-15 17:54:51 · 830 阅读 · 0 评论 -
大数据-Hive部署(win10)
win10上部署Hive1. 前期准备2. 部署Hive(1) 下载hive部署包并解压,[下载地址](http://archive.apache.org/dist/hive/hive-2.0.0/)(2) 下载mysql,并放在hive的lib目录下,[下载地址](https://dev.mysql.com/get/Downloads/Connector-J/mysql-connector-ja...原创 2019-05-15 18:15:42 · 1016 阅读 · 0 评论 -
操作型数据库 VS分析型数据库
操作型数据库VS分析型数据库关系数据库分类:1. 操作型数据库2. 分析型数据库3. 两类数据库的区别数年内(1)数据组成差别(2)技术差别(3)功能差别关系数据库分类:1. 操作型数据库用于业务支撑2. 分析型数据库用于历史数据分析,负责利用历史数据对公司各主题域进行统计分析3. 两类数据库的区别数年内(1)数据组成差别数据时间范围:操作型数据库只会存90天以内的数据;分析型数...原创 2019-05-31 10:47:30 · 6719 阅读 · 1 评论 -
数据仓库的实现与使用
数据仓库的实现与使用一、创建数据仓库二、ETL1. 抽取(Extract)2. 转换(Transform)3. 加载(Load)三、OLAP/BI工具四、数据立方体(Data Cube)cube常见五大操作*:1. 切片和切块(Slice Dice)2. 旋转(Pivot)3. 上卷和下钻(Rol-up and Drill-down)一、创建数据仓库通过编写DDL(数据定义语言)语句来实现。...原创 2019-05-31 17:52:23 · 2660 阅读 · 0 评论 -
大数据值spark入门
大数据值spark入门一、什么是spark?二、spark运行模式localStandloneApache MesosHadoop YARN三、spark组件一、什么是spark?spark是一个用来实现快速而通用的集群计算的平台是对MapReuduce计算模型的扩展高效地支持更多的计算模式,包括交互式查询和流处理重要特点:能够在内存中计算二、spark运行模式local主要用...转载 2019-06-12 17:28:36 · 159 阅读 · 0 评论 -
大数据之数据质量
大数据之数据质量一、数据质量评估1. 完整性2. 准确性3. 及时性4. 一致性二、如何提升数据质量1. 事前定义数据的监控规则2. 事中监控和控制数据生产过程3. 事后分析和问题跟踪一、数据质量评估1. 完整性2. 准确性3. 及时性4. 一致性二、如何提升数据质量1. 事前定义数据的监控规则提炼规则:梳理对应指标、确定对象(多表、单表、字段)、通过影响程度确定资产等级、质量规则...原创 2019-06-01 13:54:12 · 9015 阅读 · 0 评论 -
大数据之数据仓库分层
大数据之数据仓库分层1. 什么是数据分层?2. 数据分层的好处一种通用的数据分层设计3. 举例4. 各层会用到的计算引擎和存储系统5. 大数据相关基础概念1. 什么是数据分层?数据分层是一套行之有效的数据组织和管理方法,使得数据体系更有序。2. 数据分层的好处(1)清晰数据结构每一个数据分层都有它的作用域和职责,在使用表的时候能更方便的定位和理解。(2)减少重复开发规范数据分层,开发...原创 2019-06-03 10:32:18 · 5572 阅读 · 0 评论 -
大数据之spark集群架构
大数据之spark集群架构采用主/从(Master-Slave)结构Mater = Driver(驱动器):负责中央协调,调度各个分布式工作节点,控制器,负责整个集群的正常运行Slave = worker(工作节点):计算节点,接收主节点命令、进行状态汇报Executor(执行器):负责任务的执行...转载 2019-07-27 14:50:54 · 463 阅读 · 0 评论