1.请简述大数据的结果展现方式?
报表形式:基于数据挖掘得出的数据报表,包括数据表格、矩阵、图形和自定义格式的报表等,使用方便,设计灵活。
图形化展现:提供曲线、饼图、堆积图、仪表盘、鱼骨分析图等图形形式宏观展现模型数据的分布情况,从而便于进行决策。
KPI展现:提供表格式绩效一览表并可自定义绩效查看方式、如数据表格或走势图,企业管理者可根据可度量的目标快速评估进度。
查询展现:按数据查询条件和查询内容,以数据表格来汇总查询结果,提供明细查询功能,并可在查询的数据表格基础上进行上钻,下钻,旋转等操作。
2.简述大数据的数据管理方式?
答:对于图像、视频、UPL、地理位置等类型多样的数据,难以用传统的结构化方式描述,因此需要使用由多维表组成的面向列存储的数据管理系统来组织和管理数据。也就是说,将数据按行排列,按列存储,将相同字段的数据作为一个列族来聚合存储。不同的列族对应数据的不同属性,这些属性可以根据需求动态增加,通过这样的分布式实时列式数据库对数据统一进行结构化存储和管理,避免了传统数据存储方式下的关联查询。
3.简述hadoop的调度器?
默认调度器FIFO:hadoop中默认的调度器,采用先进先出的原则
计算能力调度器Capacity Scheduler:选择占用资源小,优先级高的先执行
公平调度器Fair Scheduler:同一队列中的作业公平共享队列中的所有资源
4.hive有哪些保存元数据的方式,各有什么特点?
内存数据库derby,较小,不常用
本地MySQL,较常用
远程MySQL,不常用
5.描述一下hadoop中,有哪些地方使用了缓存机制,作用分别是什么?
Map-Reduce框架在作业所有任务执行之前会把必要的文件拷贝到slave节点上。它运行高效是因为每个作业的文件只拷贝一次并且为那些没有文档的slave 节点缓存文档。
HDFS中的集中化缓存管理:集中缓存可以提高整个集群的内存使用率,由于DataNode缓存是由namenode管理的,所以在确定任务放置位置时,应用程序可以查询一组缓存块位置。把任务和缓存块副本放在一个位置上可以提高读操作的性能。
6.spark数据倾斜优化