大数据复习
文章平均质量分 85
lsy永烨
这个作者很懒,什么都没留下…
展开
-
【大数据 复习】第11,12,13,14章
3.一次BSP(Bulk Synchronous Parallel Computing Model,又称“大同步”模型)计算过程包括一次全局超步(所谓的超步就是计算中的一次迭代)。10.流计算可应用在多个场景中,如实时业务分析,流计算带来的实时性特点,可以大大增加实时数据的价值,为业务分析带来质的提升。2.关联性计算是大数据计算的核心——通过获得数据的关联性,可以从噪音很多的海量数据中抽取有用的信息。5.Storm是免费、开源的分布式实时计算系统,可简单、高效、可靠地处理大量的流数据。原创 2024-06-23 00:12:34 · 1673 阅读 · 0 评论 -
【大数据 复习】第10章 Spark
1.写出下列Spark中的概念: (1)RDD (2)DAG (3)Executor (4)Application (5)Task (6)Job (7)Stage (8)宽依赖 (9)窄依赖。(4)运行模式多样:可运行于独立的集群模式中,可运行于Hadoop中,也可运行于Amazon EC2等云环境中,并且可以访问HDFS、Cassandra、HBase、Hive等多种数据源。,或者也被称为TaskSet,代表了一组关联的、相互之间没有Shuffle依赖关系的任务组成的任务集。原创 2024-06-23 00:11:43 · 1315 阅读 · 0 评论 -
【大数据 复习】第9章 数据仓库分析工具Hive
(3)元数据存储模块(Metastore):是一个独立的关系型数据库,通常是与MySQL数据库连接后创建的一个MySQL实例,也可以是Hive自带的derby数据库实例。传统的数据库提供分区功能来改善大型表以及具有各种访问模式的表的可伸缩性,可管理性和提高数据库效率。Hive不支持分区功能,不使用分区使用索引可以加快数据的查询速度。(4)HBase 提供数据的实时访问,而Hive只能处理静态数据,主要是BI报表数据,所以HBase与Hive的功能是互补的。3.判断题 (1分)4.判断题 (1分)原创 2024-06-23 00:09:29 · 1126 阅读 · 0 评论 -
【大数据 复习】第8章 Hadoop架构再探讨(含设计题)
(2)MapReduce1.0既是一个计算框架,又是一个资源管理调度框架,但是,只能支持MapReduce编程模型。而YARN则是一个纯粹的资源调度管理框架,在它上面可以运行包括MapReduce在内的不同类型的计算框架,只要编程实现相应的ApplicationMaster.HA集群设置两个名称节点,“活跃(Active)”和“待命(Standby)”,Zookeeper确保一个名称节点在对外服务,就是确保坏了没有。(2)相互之间是联盟(Federation)关系,不需要彼此协调,并且向后兼容。原创 2024-06-23 00:05:30 · 1195 阅读 · 0 评论 -
【大数据 复习】第7章 MapReduce(重中之重)(含编程题)
Master:是整个集群的唯一的全局管理者,功能是作业管理、状态监控和任务调度等,即MapReduce中的JobTracker。(3)每个节点都有一定数量的 Map slot 和 Reduce slot,它们的数量可以根据集群配置和需求动态分配。,以便后续Reduce阶段对同一个键的值进行聚合处理。Mapper将输入的英语段落按照空格分割为单词,并对每个单词生成一个键值对,其中键为单词,值为1。Slave:负责任务的执行和任务状态的报告,即MapReduce中的TaskTracker。原创 2024-06-23 00:03:17 · 2010 阅读 · 3 评论 -
【大数据 复习】第5章 NoSQL(not only SQL)(重点)
C. 分区容忍性: 是指当出现网络分区的情况时(即系统中的一部分节点无法和其他节点进行通信),分离的系统也能够正常运行,也就是说,系统中任意信息的丢失或失败不会影响系统的继续运作。A. 一致性: 是指任何一个读操作总是能够读到之前完成的写操作的结果,也就是在分布式环境中,多点的数据是一致的,或者说,所有节点在同一时间具有相同的数据。优势:以完善的关系代数理论作为基础,有严格的标准,支持事务ACID四性,借助索引机制可以实现高效的查询,技术成熟,有专业公司的技术支持。系统必须保证这种程度的一致性。原创 2024-06-23 00:00:01 · 1822 阅读 · 0 评论 -
【大数据 复习】第4章 HBase(重点)
(2)如果要对hdfs上存储的海量数据进行增删改查,,我要往里面插入数据,还要修改数据,还有删除里面某一行的数据,还要精确的查询某一行数据,这是hdfs做不到的,所以有了HBase。(3)客户端并不是直接从Master主服务器上读取数据,而是通过Zookeeper获得Region的存储位置信息后,直接从Region服务器上读取数据。(4)一个表根据RowKey切分成HRegion分散存储在不同的HRS中,一个HRS中可以有多个不同的HRegion(可以是来自不同的表)有,就直接从内存中读取,非常快。原创 2024-06-22 23:56:55 · 2175 阅读 · 10 评论 -
【大数据 复习】第3章 分布式文件系统HDFS(重中之重)
D. 当客户端读取文件的时候,会先读取该信息文件,然后,利用该信息文件对每个读取的数据块进行校验,如果校验出错,客户端就会请求到另外一个数据节点读取该文件块,并且向名称节点报告这个文件块有错误,名称节点会定期检查并且重新复制这个块。B. 当数据节点发生故障,或者网络发生断网时,名称节点就无法收到来自一些数据节点的心跳信息,这时,这些数据节点就会被标记为“宕机”,节点上面的所有数据都会被标记为“不可读”,名称节点不会再给它们发送任何I/O请求。(就是你的电脑存a,我的电脑存pple)原创 2024-06-22 23:52:11 · 2515 阅读 · 0 评论 -
【人机交互 复习】第2章 Hadoop
在Hadoop 2.0及以上版本中,start-all.sh 已被拆分为 start-dfs.sh 和 start-yarn.sh,但在旧版本中,start-all.sh 可以启动这两个服务。1.Hadoop 是一个能够对大量数据进行分布式处理的软件框架,并 且是以一种可靠、高效、可伸缩的方式进行处理的,一种高吞吐量的分布式发布订阅消息系统,可以处理消费者规模的网站中的所有动作流数据。一个高可用的,高可靠的,分布式的海量日志采集、聚合和传输的系统。D) 伪分布式安装是在一台机器上模拟一个小的集群。原创 2024-06-22 23:48:56 · 1676 阅读 · 0 评论 -
【大数据 复习】第1章 大数据概述
9.大数据、云计算和物联网代表了IT领域最新的技术发展趋势,三者相辅相成,既有联系又有区别。过去重因果,有因有果,但是现在注重相关性,你买了车,那我才不管你对屁股垫有没有兴趣,我先给你推了,万一你有了呢,万一你看见了才有了呢?要多不要精了,因为数据实在是太多了,有了大数据后,完全可以直接针对全局数据而不是抽样数据,并且在短时间得到分析结果。(1)大数据决策逐渐成为一种新的决策方式。正确答案: A,B,C,D (少选不得分)正确答案: A,B,C,D (少选不得分)正确答案: A,B,C (少选不得分)原创 2024-06-22 23:44:37 · 1501 阅读 · 1 评论