大数据算法习题答案

最新推荐文章于 2024-08-13 22:40:30 发布

Lovemyse1f

最新推荐文章于 2024-08-13 22:40:30 发布

阅读量3.5w

点赞数 2

分类专栏：资料整合

本文链接：https://blog.csdn.net/Lovemyse1f/article/details/105620218

版权

本文整理了大数据处理中的各种算法题目，涉及图算法、MapReduce模型及其优化、众包和数据可视化等多个方面。介绍了图的独立集、最大独立集、最小生成树等概念，MapReduce的执行框架、错误处理及优化策略，以及众包的质量控制和数据验证。同时，探讨了数据可视化的技术，如傅立叶变换、散点图矩阵和降维方法。文章涵盖了从理论到实践的多个知识点。

摘要由CSDN通过智能技术生成

自己整理，若是侵权请私信。

6.1
1.为数T的每个结点标上子树大小的I/O复杂度为()。O (sort(N))
2.前序计数的I/O复杂度为()。O (sort(N))
3.对给定顶点邻接链表T,其一个欧拉回路可以以()IO复杂性求得。O(scan(N))IO
4.外存算法最坏情况的I/O数位Ω(N)。() 错误
5.图中的独立集是指图当中点的集合,其任意两点之间不存在边。()√
6.2
1.查找规模为N的表L中,每个独立集(MIS)的大小至少为()。n/3
2.时间前向的处理方法是按照()来访问边。拓扑序
3.求最大独立集的基本思想是使用贪心法。()正确
6.3
1.图算法包含三种计数,其中将图问题表示为有向无环图的估值问题的是()
时间前向处理
2.半外存算法是假设()
顶点放在内存中,边在外面
3.图的连通性算法可扩增为求图G最小生成树(MST)的算法。()
√
4.在求最小生成树时,压缩后图中某条边的权值等于该边代表的所有边的权值最大值。()
错误
7.1
1.MapReduce是由()开发的分布式编程模型
Google
2.在实现MapReduce程序时,需要注意的事项不包括()
避免通信
3.MapReduce的执行框架处理的内容包括()
进行错误处理将中间数据进行聚集、排序或洗牌数据分布调度
4.理想的可扩展性有()
数据加倍,运行时间加倍资源加倍,运行时间减半
5.Map()和Reduce()两个函数不能够并行运行。()
错误
7.2
1.在版本1的字数统计中，在Map里使用了一个数组H，其作用是为每一个出现的单词作()
基数
7.3
1.大部分时候reducer不能用作combiner。()
正确
2.combiner的运行次数可能有多次
正确
7.4
1.关于单词共现矩阵的计算,说法正确的是()
是一种测量语义距离的方法语义距离可用于许多语言处理任务计算文本集合中词的共现矩阵
2.用单词共现矩阵解决大规模计数问题的基本方法是()
Reducer聚合部分计数Mapper生成部分计数
3.条纹法”的优点有()
对key-value对的排序和洗牌少得多能更好地利用combiner
4.在“词对法”中,每个mapper处理一个句子。()
正确
5.“词对法”的缺点是不易实现,排序和洗牌代价高。()
错误
6.f(B|A)词对法必须确定所有a被传递到同一个combiner。()
错误
8.1