大数据技术基础

1.数据存储和管理:分布式文件系统,数据仓库,关系数据库实现对结构化,半结构化和非结构化2.Hadoop特性:高可靠性,高容错性,linux,可扩展性高,低成本(只支持少数几种编程语言是错误的)3.Hadoop核心设计:HDFS和MapReduce4.NameNode:存储元数据4.DataNode:存储被拆分的数据块7.SecondaryNameNode:帮助NameNode收集文件系统的运行状态5.Hadoop创建者:Doug Cutting6.Hadoop大数据层功能:离线分析,实时计算,BI分析;(数据挖掘是错误的)8.HDFS:分布式文件系统9.MapReduce:分布式并行编程模型10.yarn不是Hadoop1.0的组件11.分布式文件系统:把文件分布储存到多个计算机节点上,成千上万的计算机节点构成计算机集群12.Hadoop2.0以上版本中,HDFS默认一个块128MB13.HDFS采用抽象的块概念带来的好处:简化系统设计、支持大规模文件存储,适合数据备份(强大的跨平台兼容性是错误的)14.Fslmage没有记录每个块储存在哪个数据节点15.SecondaryNameNode一般是并行运行在多台机器上(错误)16.HDFS采用了主从结构模型17.Big Table:分布式存储系统;起初用于解决典型的互联网搜索问题;网络搜索应用查询建立好的索引,从BigTable得到网页18.GFS和HDFS相对应 MapReduce与Hadoop MapReduce相对应 Chubby与Zookeeper相对应19.Hbase支持修改操作20.Pig适合做数据统计21.关键字不属于“四维坐标(行键、时间戳、列族)”22.zookeeper文件记录了Root表的位置信息 Root表记录了meta表的Region位置信息 meta表保存了HBase中所有用户数据表的Region位置信息23.不支持不同region服务器之间的负载均衡(错误)24.访问HBase表(只有一个针对行键的索引)中的行:通过单个行键访问;通过一个行键的区间来访问;全盘扫描(不能通过时间戳访问)25.NoSQL数据库的特点:灵活的可扩展性;灵活的数据模型;与云计算紧密融合(数据存储规模有限是错误的)26.NoSQL很难实现横向扩展,RDBMS可以很容易通过添加更多设备来支持更大规模的数据(错误)27.NoSQL的四大类型:文档数据库;图数据库;列族数据库;键值数据库28.键值数据库:优点:扩展性好、灵活性好、大量写操作时性能高;缺点:无法存储结构化信息、条件查询效率较低29.列族数据库:查找速度快、可扩展性强、容易进行分布式扩展、复杂性低;功能较少,大都不支持强事务一致性30.MonggoDB:可以实现替换完成的文档(数据)或者一些指定的数据字段31.在可用性方面。NoSQL优于RDBMS(错误)32.文档数据库:优点:性能好、灵活性高、复杂性低、数据结构灵活(错误:数据是规则的);缺点:缺乏统一的查询语言33.RDS实例,是用户购买的RDS服务的基本单位,在实例中,用户只能创建一个数据库(错误)34.传统并行计算机框架:共享式,容错性好(错误)35.MapReduce:分而治之;计算向数据靠拢;Master/Slave架构;只能用Java来写(错误)36.MapReduce所有的数据交换都是通过MapReduce框架自身去实现的37.不同的Map任务之间可以进行通信(错误)38.MapReduce体系结构的主要部分:client;jobtracker;tasktracker以及task;不包含job39.Task分为Map Task和Reduce Task两种,分别由Job Tracker和Task Tracker启动(错误)40.MapReduce主要用于批处理、实时、计算密集型应用(错误)用于大规模数据集(大于1TB)的并行运算41.Hadoop1.0很难上手(错误)42.Spark的功能:基于内存的分布式并行编程框架,具有较高的实时性,并且较好支持迭代计算43.Kafka主要解决的问题:Hadoop生态系统中各个组件和其他产品之间缺乏统一的、高效的数据交换中介44.单一命名空间不属于HDFS1.0中存在的问题(无法水平扩展、单点故障问题、系统整体性能受限于单个名称节点的吞吐量)45.HDFS Federation:属于不同命名空间的块可以构成同一个块池46.MapReduce1.0不存在单点故障(错误)47.ResourceManager的功能:处理客户端请求、监控NodeManager、资源分配与调度;处理来自ApplicationMaster的命令(错误)48.ApplicationMaster的功能:任务调度、监控与容错、为应用程序申请资源、将申请的资源分配给内部任务;处理来自ResourceManager的命令(错误)49.Storm不可能是Hive的执行引擎50.在Hive HA中,在Hadoop集群上构建的数据仓库是由单个Hive实例进行管理的(错误)51.数据仓库的特性:面向主题的、集成的、反映历史变化的;动态变化的(错误)52.Hive定义了简单的类似SQL的查询语言—HiveQL,他与大部分SQL语法无法兼容(错误)53.Hive主要是用于满足实时数据流的处理需求(错误)54.Hive:支持索引;依赖于分布文件系统HDFS(传统数据库则依赖于本地文件系统);支持分区;具有很好的水平扩展性(传统数据库很难实现横向扩展)55.Hive的用户接口模块:HWI、JDBC/ODBC、Thrift Server;PMI(错误)56.zookeeper是一个分布式小文件存储系统;可以为其他软件进行选主服务;在Dubbo中,提供了注册中心服务;znode共有4种类型;57.属于zookeeper特殊的性质有:目录树中节点兼具目录和文件特点;58.zookeeper中Leader:统一管理;一台机器操作,其他集群都可以共享;提高性能59.安装hdfs时其中fs.defaultFS+配置在core-site.xml60.Hadoop依赖的JAVA_HOME配置项属于hadoop-env.sh61.修改Hadoop上的HDFS默认副本数需要修改hdfs-site.xml62.端口50070是NameNode服务的端口63.etc/hadoop保存了hadoop集群的配置文件64.单机模式中没有HDFS、只能测试MapReduce程序65.Hadoop完全分布模式配置免密登录是要主节点和从节点任意两个节点之间免密登录66.大数据的特点:大量化、快速化、多样化、价值密度比较低67.大数据的两个核心技术:分布式储存、分布式处理68.云计算关键技术包括:分布式储存、分布式计算、虚拟化、多租户69.Hadoop2.0的组件:ResourceManager、NodeManager70.Hadoop集群中的节点主要包括:DataNode、JobTracker、TaskTracker、SecondaryNameNode71.hadoop给用户提供了系统底层细节透明的分布式基础架构;具有很好的跨平台特性;可以部署在廉价的计算机集群中;曾被公认为行业大数据标准开源软件72.Hadoop集群的整体性能主要受到CPU性能、内存、网络、存储容量影响73.HDFS目标:兼容廉价的硬件设备;流数据读写;大数据集;复杂的文件模型(错误)74.HDFS局限性:无法高效存储大量小文件;不支持多用户写入及任意修改文件;不适合低延迟数据访问75.HDFS采用抽象的块概念可以带来的好处:支持大规模文件存储、适合数据备份、简化系统设计76.NameNode主要保存了Fslmage和EditLog核心的数据结构77.DataNode主要功能:负责数据的存储和读取;根据客户端或者是名称节点的调度来进行数据的存储和检索;向名称节点定期发送自己所存储的块的列表78.HDFS的命名空间包含:文件、目录、块79.HDFS只设置唯一一个名称节点的局限性:命名空间的限制、性能的瓶颈、隔离问题、集群的可能性80.HDFS数据块多副本存储具有哪些优点:加快数据传输速度、容易检查数据错误、保证数据可靠性;适合在多平台上运行(错误)81.HDFS检测数据错误和进行自动恢复:数据节点出错、数据出错、名称节点出错82.HBase与传统的关系数据库的区别:数据类型、数据操作、存储模式、数据维护83.HBase访问接口类型:Native Java API、HBase Shell、Thrift Gateway、REST Gateway84.HBase的实现包括:库函数:链接到每个客户端;一个Master主服务器;许多个Region服务器85.zookeeper提供的服务:配置维护、域名服务、分布式同步86.文档数据库:性能好(高并发),灵活性高;复杂性低,数据结构灵活87.图数据库:专门用于处理具有高度相互关联关系的数据;比较适合于社交网络、模式识别、依赖分析、推荐系统以及路径寻找等问题;灵活性高;复杂性高88.NoSQL的三大基石:CAP、最终一致性、BASE89.CAP:一致性、可用性(快速获取数据(错误))、分区容忍性90.处理CAP的问题时的选择:C(一致性)A(可用性)、CP(分区容忍性)、CAP91.数据库事务具有ACID四性:原子性、持久性、一致性、隔离性。(间隔性是错误的)92.云数据库的特性:动态可扩展、高可用性、免维护、安全93.MapReduce的优势:非共享式,容错性好;普通PC机,便宜,扩展性好;编程简单;批处理、非实时、数据密集型94.MapReduce的作业主要包括:从磁盘或从网络读取数据,即IO密集工作;计算数据,即CPU密集工作95.split包含的元数据信息:数据的起始位置、数据长度、数据所在节点、数据大小96.MapReduce具体应用:关系代数运算(选择、投影、并、交、差、连接);分组与聚合运算;矩阵-向量乘法;矩阵乘法97.JobTracker三大功能:资源管理;任务调度;任务监控98.Yarn体系结构:ResourceManager;NodeManager;ApplicationMaster99.Hive的执行引擎不会是Pig100.Hive主要由用户接口模块、驱动模块、元数据存储模块组成1.Pig Latin语句采用DUMP作为输入、输出2.Pig提供的类SQL语言叫Pig Latin,该语言的编译器会把类SQL的数据分析请求转换为一系列经过优化处理的MapReduce运算3.Pig支持包、元组和映射等高级概念4.在Apache Pig中,元组的集合被称为关系5.Sqoop工作机制是将导入或导出的命令翻译成MapReduce程序来实现的6.HBase依赖zookeeper提供消息通信机制7.HBase靠HDFS存储底层数据1.MapReduce:分为Map端和Reduce端,用户只要实现map()和reduce()两个函数,即可实现分布式计算2.Zookeeper是一个分布式小文件存储系统;应用场景:数据发布/订阅;负载均衡;命名服务;分布式协调/通;集群管理;master选举;分布式锁;分布式队列3.Zookeeper角色:领导者:负责进行投票的发起和决议,更新系统状态;跟随者:接受客户请求并向客户端返回结果,在轩竹过程中参与投票观察者:扩展系统,提高读取速度;客户端:请求发起方4.Znode节点类型:persistent-持久节点;ephemeral-临时节点;persistent_sequential-持久顺序节点;ephemeral_sequential-临时顺序节点hadoop集群安装配置的主要操作步骤①创建Hadoop用户;②Java环境安装;③SSH登录权限设置;④Hadoop单机安装和伪分布式安装运行一个虚拟环境 CentOS配置网络创建新的用户组和用户上传文件到 CentOS并配置Java和 Hadoop环境修改Hadoop2
(1)
CREATE EXTERNAL TABLE bigdata_user(
id int,
uid string,
item_id string,
behavior_type int,
item_category string,
visit_date date,
province string)
COMMENT ‘Welcome to xmu dblab!’
ROW FORMAT SERDE
‘org.apache.hadoop.hive.serde2.lazy.LazySimpleSerDe’
WITH SERDEPROPERTIES (
‘field.delim’=’\t’,
‘serialization.format’=’\t’)
STORED AS INPUTFORMAT
‘org.apache.hadoop.mapred.TextInputFormat’
OUTPUTFORMAT
‘org.apache.hadoop.hive.ql.io.HiveIgnoreKeyTextOutputFormat’
LOCATION
‘hdfs://localhost:9000/bigdatacase/dataset’
TBLPROPERTIES (
‘numFiles’=‘1’,
‘totalSize’=‘15590786’,
‘transient_lastDdlTime’=‘1480217306’)
(2)
select count(*) from bigdata_user;
(3)
select behavior_type from bigdata_user limit 10;

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值