山东大学数据科学导论2020-2021期末考试题目（回忆）

最新推荐文章于 2024-07-06 01:23:09 发布

HHHHHHermit

最新推荐文章于 2024-07-06 01:23:09 发布

阅读量4.8k

点赞数 10

分类专栏：期末考试文章标签： redis 数据库 mapreduce

本文链接：https://blog.csdn.net/lwt1597532486/article/details/112104121

版权

期末考试专栏收录该内容

2 篇文章 0 订阅

订阅专栏

前言

简单回忆记录2020学年秋季学期的限选课数据科学导论的期末考试题目，记忆可能有偏差，请谅解。相关内容为个人观点，不是正确答案…
个人观点：能别选这课就尽量别选了 TAT
from 韬

一、简答题

1.描述大数据的开发管理全过程

不知道为什么扯上了大数据，韬仍写了数据处理流程：采集、表示与存储、清洗、集成、分析、展现、决策

2.探索性数据分析

好像还有作用？韬记得啥就都写上了

（1）探索性数据分析是什么？描述其过程

（2）与传统数据分析相比有什么区别

数据探索性分析:
指对已有的数据在尽量量少的先验假定情况下进行探索，逐步了解数据的特点
数据探索性分析作用:
利用人机交互技术和数据可视化技术，通过不断揭示数据的规律和数据间的关联，引导分析人员发现并认识以前不知道的数据模式或规律。对未知的数据模式和规律的探索是其价值所在。
探索式数据分析的基本方法:
(1)计算一些汇总统计量，了解数据的典型值，还可以通过确定异常值，了解数据的异常情况
(2)制图和指表，展示变量的分布情况、时间序列数据的变化趋势以及变量之间的关系。

3.关系型数据库不能满足Web2.0应用的哪些数据需求？举例说明

相关示例可以参考（来自NoSQL的资料https://blog.csdn.net/lwt1597532486/article/details/112004608）
关系数据库的不足：大量数据的写入处理；表结构变更及建立索引；字段不固定的应用；对简单查询需要快速返回结果的处理
NoSQL数据库的优势：易于数据的分散；提升性能和增大规模；模式自由；扩展性好
NewSQL 是对各种新的可扩展/高性能数据库的简称，具有 NoSQL 对海量数据的存储管理能力，保持了传统数据库支持 ACID 和 SQL 等特性

韬主要根据关系数据库的不好和其他数据库的好扯了一些乱七八糟的…

二、设计题

1.假设新浪微博使用Redis键值式数据库存储关注表、粉丝表

（1）这样做的好处

（2）粉丝表的数据动辄上亿，如何构建索引机制实现快速根据粉丝ID查询粉丝表

Redis的相关信息
数据高并发的读写；海量数据的读写；对扩展性要求高的数据；支持的数据类型包括 string、list、set、zset(有序集合)和 hash ；支持 push/pop、add/remove、集合并交差等丰富的操作，而且操作都是原子的
韬不知道怎么弄索引机制好…

2.MapReduce

（1）描述MapReduce实现表的自然连接的过程

（2）描述map函数和reduce函数的逻辑实现

网上的简单明了的图解释有很多，可以自己找个喜欢的，~~学习都这么痛苦了尽量找个顺眼的吧~~
MapReduce自然连接图解
https://www.cnblogs.com/fanweisheng/p/11262303.html

三、计算题

1.计算TF-IDF。

下图为示意图，原题为“中国”“软件”“开发”，其他数据好像一模一样。老师应该是懒得改…

（1）计算IDF和TF-IDF

（2）根据上列计算结果判断该文章的重要词汇

韬还以为就除一下没加log，裂开…
TF即词频(Term Frequency)，每篇文档中关键词的频率（该文档单词/该文档单词总数）
IDF即逆文档频率(Inverse Document Frequency)，文档总数/关键词t出现的文档数目，即I D F ( t ) ＝ l n ( ( 1 + ∣ D ∣ ) / ∣ D t ∣ ) IDF(t)＝ln((1+|D|)/|D_t|)IDF(t)＝ln((1+∣D∣)/∣D_t ∣)（还有log等形式，自然对数被证明是最有效的一个公式）
TF-IDF的定义及计算

网络图片，侵删

2.用户和音乐喜好的随机游走

（1）根据下表画用户和音乐喜好的二分图

（2）Alice喜欢音乐1、4、5，接下来应该推荐哪首歌给她？使用随机游走推断，并写出验证过程。

在这里插入图片描述

手绘图，数据记忆中应该差不多
随机游走的简单介绍https://blog.csdn.net/qq_38842357/article/details/80872480

四、总结

数据科学导论这门课是大数据方向的限选课，但是韬（很后悔选）快乐地学到了很多知识。注意课程有实验有考试。这位前辈的笔记带起了整门课，感谢…山东大学数据科学导论笔记https://blog.csdn.net/zzc_zhuyu/article/details/103914217

这个写的也挺好数导复习
实验很多很多（大概5+5吧，后来放宽了可以选做），一节2学分的课有两个老师上不同内容不同进度的课，每个老师有不同的多个实验，甚至还有难以水的公开课，真的超值！！！
图片为网络图片或来自他人网页，附部分链接。（同时感谢翔同学辅助回忆、提供相似题目图片）

HHHHHHermit

关注

10
点赞
踩
64

收藏

觉得还不错? 一键收藏
3
评论
山东大学数据科学导论2020-2021期末考试题目（回忆）

前言简单回忆记录2020学年秋季学期的限选课数据科学导论的期末考试题目，记忆可能有偏差，请谅解。相关内容为个人观点，不是正确答案…个人观点：能别选这课就尽量别选了 TATfrom 韬一、简答题1.描述大数据的开发管理全过程不知道为什么扯上了大数据，韬仍写了数据处理流程：采集、表示与存储、清洗、集成、分析、展现、决策2.探索性数据分析好像还有作用？韬记得啥就都写上了（1）探索性数据分析是什么？描述其过程（2）与传统数据分析相比有什么区别数据探索性分析: 指对已有的数据在尽量量少的先验
复制链接

扫一扫