1、大数据主要特点:体量大 种类多 速度快 价值高
2、大数据构成:结构化数据 半结构化数据 非结构化数据
3、大数据时代三大变革:处理数据理念的思维变革 挖掘数据价值的商业变革 面对数据风险的管理变革
4、对于处理数据理念的思维变革提出3个著名观点:要全体,不要抽样 要相关,不要因果 要效率,不必要不精确
5、大数据的主要技术支撑得益于:存储成本的下降 计算速度的提高 人工智能理与技术的发展
6、大数据技术支撑:云计算 人工智能 物联网
7、大数据面临的技术挑战:数据存储与管理的挑战,计算速度的挑战,数据安全的挑战
简答题:
1、简述大数据带来了哪些思维方式变革
处理数据理念的思维变革 挖掘数据价值的商业变革 面对数据风险的管理变革
2、简述大数据具有哪些核心价值
发现规律、预测未来、进行决策
3、简述大数据面临哪些技术上的挑战
数据存储与管理的挑战,计算速度的挑战,数据安全的挑战
4、简述HDFS集群的组成,以及NameNode和DataNode的作用
一个hdfs集群通常包含一个namenode和多个datanode。NameNode负责文件元数据的操作,DataNode负责处理文件内容的读写请求
5、简述Hadoop3.0和2.0版本有什么不同
Hadoop 2.0是基于JDK 1.7开发的,Hadoop 3.0要求JDK版本不低于1.8,对之前的Java版本不再提供支持。
6、Hadoop中yarn的作用是什么
作为 Apache Hadoop 的核心组件之一,YARN 负责将系统资源分配给在 Hadoop 集群中运行的各种应用程序,并调度要在不同集群节点上执行的任务。
-----------------------