![](https://img-blog.csdnimg.cn/20201014180756922.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
大数据测试
文章平均质量分 95
测试小书童
这个作者很懒,什么都没留下…
展开
-
第五章 数据仓库实例
大数据测试-hadoop,hive,datax,建模实践原创 2022-05-09 17:37:41 · 3011 阅读 · 0 评论 -
第四章 大数据之hive搭建
这是大数据测试测试第四章,可参考大数据测试系列 说明 学习本教程,请先看完第三章 大数据之Hadoop搭建 本次教程主要来自基于Hadoop的数据仓库Hive 学习指南,本次的内容全部经过了自己的实践,与参考文档中不一致的地方,也是经过查询各种资料和实践通过 hive简单介绍 使用 hive 的命令行接口,感觉很像操作关系数据库,但是 hive 和关系数据库还是有很大的不同,下面我就比较下 hive 与关系数据库的区别,具体如下: Hive 和关系数据库存储文件的系统不同,Hive 使用的是 ha.原创 2022-05-09 17:29:22 · 255 阅读 · 0 评论 -
第三章 大数据之Hadoop搭建
这是大数据测试系列第三章,可参考大数据测试系列文章 环境 服务器信息,是腾讯云服务器,2核cpu,4GB内存,80GB云硬盘,系统为centos 7.6_x64 介绍 Hadoop是用来处理大数据集合的分布式存储计算基础架构。可以使用一种简单的编程模式,通过多台计算机构成的集群,分布式处理大数据集。hadoop作为底层,其生态环境很丰富。hadoop基础包括以下四个基本模块: hadoop基础功能库:支持其他hadoop模块的通用程序包。 HDFS: 一个分布式文件系统,能够以高吞吐量访问应用的数.原创 2022-05-09 17:20:32 · 181 阅读 · 0 评论 -
第一章 大数据技术生态
大数据技术生态 本文主要抄录《大数据测试技术与实践》 由下而上可以划分为: 数据采集 关系与非关系数据采集组件,分布式消息队列等,如kafka、sqoop 数据存储 分布式存储系统、关系和非关系数据库等,如HDFS、MySQL 管理调度 资源管理和调度YARN,容器Kubernetes、服务协调zookeeper、工作流调度平台(如Azkaban)等 计算机分析 批处理(MapReduce)、流计算(Flink)、查询分析(Impala)和图计算(Gelly)等 组件应用 各原创 2022-05-09 16:17:31 · 501 阅读 · 0 评论 -
第二章 数据仓的设计与构建
这个是大数据测试系列第二章,点击查看第一章 什么是数据仓 是BI(商业智能)、报表和数据挖掘等应用的基础 大量的数据集合,4个特点主要包括:面向主题的、集成的、相对稳定的、反应历史变化的 数据仓至少需要具备数据获取、数据存储、数据访问3个核心功能,这3个功能的实现过程是数据源到最终决策应用的流转过程。下图为数据流转图: 数据获取和数据存储这两个功能主要由ETL工具支撑。ETL是指从数据源提前,经过清洗、转换等过程,并最终存储到目标数据仓库的过程。如下图所示,ETL过程3个步骤 .原创 2022-05-09 16:26:34 · 624 阅读 · 0 评论