测试小书童-CSDN博客

原创第五章数据仓库实例

大数据测试-hadoop,hive,datax,建模实践

2022-05-09 17:37:41 3011

这是大数据测试测试第四章，可参考大数据测试系列说明学习本教程，请先看完第三章大数据之Hadoop搭建本次教程主要来自基于Hadoop的数据仓库Hive 学习指南，本次的内容全部经过了自己的实践，与参考文档中不一致的地方，也是经过查询各种资料和实践通过 hive简单介绍使用 hive 的命令行接口，感觉很像操作关系数据库，但是 hive 和关系数据库还是有很大的不同，下面我就比较下 hive 与关系数据库的区别，具体如下： Hive 和关系数据库存储文件的系统不同，Hive 使用的是 ha.

2022-05-09 17:29:22 255

原创第三章大数据之Hadoop搭建

这是大数据测试系列第三章，可参考大数据测试系列文章环境服务器信息，是腾讯云服务器，2核cpu，4GB内存，80GB云硬盘，系统为centos 7.6_x64 介绍 Hadoop是用来处理大数据集合的分布式存储计算基础架构。可以使用一种简单的编程模式，通过多台计算机构成的集群，分布式处理大数据集。hadoop作为底层，其生态环境很丰富。hadoop基础包括以下四个基本模块： hadoop基础功能库：支持其他hadoop模块的通用程序包。 HDFS: 一个分布式文件系统，能够以高吞吐量访问应用的数.

2022-05-09 17:20:32 181

原创第二章数据仓的设计与构建

这个是大数据测试系列第二章，点击查看第一章什么是数据仓是BI（商业智能）、报表和数据挖掘等应用的基础大量的数据集合，4个特点主要包括：面向主题的、集成的、相对稳定的、反应历史变化的数据仓至少需要具备数据获取、数据存储、数据访问3个核心功能，这3个功能的实现过程是数据源到最终决策应用的流转过程。下图为数据流转图：数据获取和数据存储这两个功能主要由ETL工具支撑。ETL是指从数据源提前，经过清洗、转换等过程，并最终存储到目标数据仓库的过程。如下图所示，ETL过程3个步骤 .

2022-05-09 16:26:34 624

原创第一章大数据技术生态

大数据技术生态本文主要抄录《大数据测试技术与实践》由下而上可以划分为：数据采集关系与非关系数据采集组件，分布式消息队列等，如kafka、sqoop 数据存储分布式存储系统、关系和非关系数据库等，如HDFS、MySQL 管理调度资源管理和调度YARN，容器Kubernetes、服务协调zookeeper、工作流调度平台（如Azkaban）等计算机分析批处理（MapReduce）、流计算(Flink)、查询分析(Impala)和图计算(Gelly)等组件应用各

2022-05-09 16:17:31 501

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

m0_57824522的博客

原创第五章数据仓库实例

原创第四章大数据之hive搭建

原创第三章大数据之Hadoop搭建

原创第二章数据仓的设计与构建

原创第一章大数据技术生态

空空如也

空空如也

原创 第五章 数据仓库实例

原创 第四章 大数据之hive搭建

原创 第三章 大数据之Hadoop搭建

原创 第二章 数据仓的设计与构建

原创 第一章 大数据技术生态

空空如也

空空如也

原创第五章数据仓库实例

原创第四章大数据之hive搭建

原创第三章大数据之Hadoop搭建

原创第二章数据仓的设计与构建

原创第一章大数据技术生态