大数据_大数据 ow-CSDN博客

本文链接：https://blog.csdn.net/ho_ll_ow/article/details/100898136

什么是大数据：
通过收集本行业或者多个行业(智慧城市大数据平台需要收集交通行业，银行，工商，医院等相关多行业信息)海量数据，借助分布式储存系统及各类计算框架，提炼或者分析有价值的东西，提供满足企业需要的解决方案。
简单总结为：根据企业需求场景(离线计算或者流计算)，利用大数据生态对应技术解决企业对大数据(已有的或者不断生成)分析需求的方案。
大数据特点：
1.数据产生快，数据量大；(前所未有，尤其是web2.0及物联网等行业兴起)
2.数据多样化(有文本，图片，视频…)；
3.价值密度低，需要挖掘提炼商业价值
4.数据的真实性(数据是否真是可信，如经济普查，是否都如实上报)
大数据的应用场景：
1.各大电商平台个性化推荐(京东，淘宝)
2.根据上网痕迹，构建用户画像，实现精准推送(今日头条，淘宝，京东)
3.海关历年数据分析，决策辅助
4.医疗(对多年同专业数据进行分析)
5.农业
6.智慧校园(贫困生奖学金)

大数据需要解决的问题：
1.如何从众多的数据源提取数据?(核心)
2.如何储存GB/TB/PB/EB等级别的大数据？(核心)
3.如何计算如果庞大的数据？(核心)
4.如何管理众多的计算机资源?
5.如何保障数据的安全？

大数据计算场景及其技术：
在这里插入图片描述
大数据生态组件：

大数据生态组件简要介绍

Flume
Flume是Cloudera提供的一个高可用的，高可靠的，分布式的海量日志采集、聚合和传输的系统，用来做数据采集。

Kafka
分布式的消息发布/订阅系统，通过与Spark Streaming整合，完成实时业务计算。由Java+scala开发。

HDFS
Hadoop中的重要组件之一，用来做分布式存储，具有高容错，高吞吐等特性，是常用的分布式文件存储系统。

MR（MapReduce简称）
Hadoop中的重要组件之一，作为分布式计算模型，程序人员只需在Mapper、Reducer中编写业务逻辑，然后直接交由框架进行分布式计算即可。

Yarn
Yarn是Hadoop中的重要组件之一，负责海量数据运算时的资源调度
Standalone是Spark提供的资源管理器，
Mesos也是Apache下的开源分布式资源管理器。

Spark
Spark是大规模数据快速处理通用的计算引擎，其提供大量的库：Spark Core、Spark SQL、Spark Streaming、MLlib、GraphX 。（只是计算，不作存储）

Hive/Pig
hive是基于Hadoop的一个数据仓库工具，通过将结构化的数据文件（通常为HDFS文件）映射为一张数据表，提供简单的sql查询功能，将sql语句转换为MapReduce任务运行。
pig可以看做hadoop的客户端软件，可以连接到hadoop集群进行数据分析工作,企业中很少用了。

Hbase
HBase是建立在Hadoop文件系统之上的面向列的分布式数据库。不同于一般的关系数据库，适合于存储非结构化的数据，HBase基于列而不是基于行。

Redis
Redis 可基于内存也可以持久化的日志型、Key-Value数据库。往往用来缓存key-value类型的小表数据。

Sqoop
负责数据在 HIVE—HDFS—DB之间进行导入导出。

JavaWeb
用来搭建可视化的Web服务平台。