自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(5)
  • 收藏
  • 关注

原创 第五章 数据仓库实例

大数据测试-hadoop,hive,datax,建模实践

2022-05-09 17:37:41 3011

原创 第四章 大数据之hive搭建

这是大数据测试测试第四章,可参考大数据测试系列 说明 学习本教程,请先看完第三章 大数据之Hadoop搭建 本次教程主要来自基于Hadoop的数据仓库Hive 学习指南,本次的内容全部经过了自己的实践,与参考文档中不一致的地方,也是经过查询各种资料和实践通过 hive简单介绍 使用 hive 的命令行接口,感觉很像操作关系数据库,但是 hive 和关系数据库还是有很大的不同,下面我就比较下 hive 与关系数据库的区别,具体如下: Hive 和关系数据库存储文件的系统不同,Hive 使用的是 ha.

2022-05-09 17:29:22 255

原创 第三章 大数据之Hadoop搭建

这是大数据测试系列第三章,可参考大数据测试系列文章 环境 服务器信息,是腾讯云服务器,2核cpu,4GB内存,80GB云硬盘,系统为centos 7.6_x64 介绍 Hadoop是用来处理大数据集合的分布式存储计算基础架构。可以使用一种简单的编程模式,通过多台计算机构成的集群,分布式处理大数据集。hadoop作为底层,其生态环境很丰富。hadoop基础包括以下四个基本模块: hadoop基础功能库:支持其他hadoop模块的通用程序包。 HDFS: 一个分布式文件系统,能够以高吞吐量访问应用的数.

2022-05-09 17:20:32 181

原创 第二章 数据仓的设计与构建

这个是大数据测试系列第二章,点击查看第一章 什么是数据仓 是BI(商业智能)、报表和数据挖掘等应用的基础 大量的数据集合,4个特点主要包括:面向主题的、集成的、相对稳定的、反应历史变化的 数据仓至少需要具备数据获取、数据存储、数据访问3个核心功能,这3个功能的实现过程是数据源到最终决策应用的流转过程。下图为数据流转图: 数据获取和数据存储这两个功能主要由ETL工具支撑。ETL是指从数据源提前,经过清洗、转换等过程,并最终存储到目标数据仓库的过程。如下图所示,ETL过程3个步骤 .

2022-05-09 16:26:34 624

原创 第一章 大数据技术生态

大数据技术生态 本文主要抄录《大数据测试技术与实践》 由下而上可以划分为: 数据采集 关系与非关系数据采集组件,分布式消息队列等,如kafka、sqoop 数据存储 分布式存储系统、关系和非关系数据库等,如HDFS、MySQL 管理调度 资源管理和调度YARN,容器Kubernetes、服务协调zookeeper、工作流调度平台(如Azkaban)等 计算机分析 批处理(MapReduce)、流计算(Flink)、查询分析(Impala)和图计算(Gelly)等 组件应用 各

2022-05-09 16:17:31 501

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除