大数据测试扫盲（一）

最新推荐文章于 2024-09-20 16:14:05 发布

ths512

最新推荐文章于 2024-09-20 16:14:05 发布

阅读量2.1k

点赞数 10

分类专栏：大数据（big data）文章标签： big data 人工智能机器学习

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/ths512/article/details/120399993

版权

大数据（big data）专栏收录该内容

11 篇文章 2 订阅

订阅专栏

一，什么是大数据？

大数据(BigData) :指无法在一定时间范围内用常规软件工具进行捕捉、管理和处理的数据集合，是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产。
主要解决，海量数据的存储和海量数据的分析计算问题。

顺序给出所有数据存储单位：bit、Byte、KB、MB、GB、TB、PB、EB、ZB、YB、BB、NB、DB

1Byte = 8bit 1K = 1024Byte

1MB = 1024K 1G = 1024M

1T = 1024G 1P = 1024T

二，大数据三大类公司和大数据业务

大数据公司三大分类

专业第三方数据公司：收集数据，分析数据，卖分析后的数据，如，友盟（了解玩家的消费环节）

海量数据处理型公司：淘宝、上亿用户发数据，由于数据量大，处理一个指标也是上亿的数据，就要用到hadoop架构

企业内部：数据不是海量的，但是指标多种多样的。

大数据业务分类

报表

预测分析

数据监控

三，大数据的应用领域

四、大数据业部门组织结构

五，大数据技术生态体系

图中涉及的技术名词解释如下：

1）Sqoop：Sqoop是一款开源的工具，主要用于在Hadoop、Hive与传统的数据库（MySql）间进行数据的传递，可以将一个关系型数据库（例如：MySQL，Oracle 等）中的数据导进到Hadoop的HDFS中，也可以将HDFS的数据导进到关系型数据库中。

2）Flume：Flume是一个高可用的，高可靠的，分布式的海量日志采集、聚合和传输的系统，Flume支持在日志系统中定制各类数据发送方，用于收集数据；

3）Kafka：Kafka是一种高吞吐量的分布式发布订阅消息系统；

4）Spark：Spark是当前最流行的开源大数据内存计算框架。可以基于Hadoop上存储的大数据进行计算。

5）Flink：Flink是当前最流行的开源大数据内存计算框架。用于实时计算的场景较多。

6）Oozie：Oozie是一个管理Hdoop作业（job）的工作流程调度管理系统。

7）Hbase：HBase是一个分布式的、面向列的开源数据库。HBase不同于一般的关系数据库，它是一个适合于非结构化数据存储的数据库。

8）Hive：Hive是基于Hadoop的一个数据仓库工具，可以将结构化的数据文件映射为一张数据库表，并提供简单的SQL查询功能，可以将SQL语句转换为MapReduce任务进行运行。其优点是学习成本低，可以通过类SQL语句快速实现简单的MapReduce统计，不必开发专门的MapReduce应用，十分适合数据仓库的统计分析。

9）ZooKeeper：它是一个针对大型分布式系统的可靠协调系统，提供的功能包括：配置维护、名字服务、分布式同步、组服务等。

关注

10
点赞
踩
55

收藏

觉得还不错? 一键收藏
3
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

ths512 CSDN认证博客专家 CSDN认证企业博客

码龄9年

205: 原创

2万+: 周排名

4万+: 总排名

75万+: 访问

: 等级

6302: 积分

2394: 粉丝

362: 获赞

93: 评论

1859: 收藏

私信

关注

热门文章

分类专栏

最新评论

数仓中概念术语解析
huaweinbba: 统计学
13丨性能测试场景：如何进行场景设计
王棉花的妈: 一般是公司业务小姐姐根据用户实际应用情况总结的数据，但我们公司是第一次做性能测试并且是新项目，方案评审会上几个老大让我凭经验设计，我就找几个AI问了一遍，发给老大们看，最终敲定了业务比例
jmeter测试并发
王棉花的妈: jemeter里的查看结果树、聚合报告等会吃内存cpu，即占用运行时间，会造成测试结果不符合实际结果，建议用简单数据写入器+HTML报告来输出测试结果
13丨性能测试场景：如何进行场景设计
王棉花的妈: 明天我主持性能测试方案评审，博主这篇文章非常有用，会议结束再来回答上面几楼提的问题
python 虚拟环境
CSDN-Ada助手: 不知道 Python入门技能树是否可以帮到你：https://edu.csdn.net/skill/python?utm_source=AI_act_python

最新文章

目录

评论 3

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。