大数据一些问题

1.请简述大数据的结果展现方式

           报表形式:基于数据挖掘得出的数据报表,包括数据表格、矩阵、图形和自定义格式的报表等,使用方便,设计灵活。

           图形化展现:提供曲线、饼图、堆积图、仪表盘、鱼骨分析图等图形形式宏观展现模型数据的分布情况,从而便于进行决策。

            KPI展现:提供表格式绩效一览表并可自定义绩效查看方式、如数据表格或走势图,企业管理者可根据可度量的目标快速评估进度。

            查询展现:按数据查询条件和查询内容,以数据表格来汇总查询结果,提供明细查询功能,并可在查询的数据表格基础上进行上钻,下钻,旋转等操作。

 

2.简述大数据的数据管理方式?

            答:对于图像、视频、UPL、地理位置等类型多样的数据,难以用传统的结构化方式描述,因此需要使用由多维表组成的面向列存储的数据管理系统来组织和管理数据。也就是说,将数据按行排列,按列存储,将相同字段的数据作为一个列族来聚合存储。不同的列族对应数据的不同属性,这些属性可以根据需求动态增加,通过这样的分布式实时列式数据库对数据统一进行结构化存储和管理,避免了传统数据存储方式下的关联查询。

 

3.简述hadoop的调度器?

                    默认调度器FIFO:hadoop中默认的调度器,采用先进先出的原则

                    计算能力调度器Capacity Scheduler:选择占用资源小,优先级高的先执行

                    公平调度器Fair Scheduler:同一队列中的作业公平共享队列中的所有资源

 

4.hive有哪些保存元数据的方式,各有什么特点?

          内存数据库derby,较小,不常用

           本地MySQL,较常用

           远程MySQL,不常用

 

5.描述一下hadoop中,有哪些地方使用了缓存机制,作用分别是什么?

           Map-Reduce框架在作业所有任务执行之前会把必要的文件拷贝到slave节点上。它运行高效是因为每个作业的文件只拷贝一次并且为那些没有文档的slave 节点缓存文档。

            HDFS中的集中化缓存管理:集中缓存可以提高整个集群的内存使用率,由于DataNode缓存是由namenode管理的,所以在确定任务放置位置时,应用程序可以查询一组缓存块位置。把任务和缓存块副本放在一个位置上可以提高读操作的性能。

 

6.spark数据倾斜优化

                 使用Hive ETL预处理数据
                 过滤少数导致倾斜的key
                 提高shuffle操作的并行度

 

7.数据清洗的方法不包括(D)
        A.缺失值处理
        B.噪声数据清除
        C.一致性检查
        D.重复数据记录处理
 
8.下列关于聚类挖掘技术的说法中,错误的是(B)
       A.不预先设定数据归类类目,完全根据数据本身性质将数据聚合成不同类别
       B.要求同类数据的内容相似度尽可能小
       C.要求不同类数据的内容相似度尽可能小
       D.与分类挖掘技术相似的是,都是要对数据进行分类处理
 
9.下列关于脏数据的说法中,正确的是(A、B、C、D、E)
A.格式不规范
B.编码不统一
C.意义不明确
D.与实际业务关系不大
E.数据不完整
 
10.补充缺失的代码
 
def print_directory_contents(sPath):
    """
    这个函数接受文件夹的名称作为输入参数,
    返回该文件夹中文件的路径,
    以及其包含文件夹中文件的路径。
 
    """
    # 补充代码
 
                 答:
                                 def print_directory_contents(sPath):
                                     import os                                       
                                     for sChild in os.listdir(sPath):                
                                       sChildPath = os.path.join(sPath,sChild)
                                       if os.path.isdir(sChildPath):
                                              print_directory_contents(sChildPath)
                                         else:
                                               print sChildPath

 

转载于:https://www.cnblogs.com/hpe-id-zfc/p/7999293.html

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值