山东大学数据科学导论2020-2021期末考试题目(回忆)

前言

简单回忆记录2020学年秋季学期的限选课数据科学导论的期末考试题目,记忆可能有偏差,请谅解。相关内容为个人观点,不是正确答案…
个人观点:能别选这课就尽量别选了 TAT

from 韬


一、简答题

1.描述大数据的开发管理全过程

不知道为什么扯上了大数据,韬仍写了数据处理流程:采集、表示与存储、清洗、集成、分析、展现、决策

2.探索性数据分析

好像还有作用?韬记得啥就都写上了

(1)探索性数据分析是什么?描述其过程

(2)与传统数据分析相比有什么区别

数据探索性分析:
指对已有的数据在尽量量少的先验假定情况下进行探索,逐步了解数据的特点
数据探索性分析作用:
利用人机交互技术和数据可视化技术,通过不断揭示数据的规律和数据间的关联,引导 分析人员发现并认识以前不知道的数据模式或规律。对未知的数据模式和规律的探索是其价值所在。
探索式数据分析的基本方法:
(1)计算一些汇总统计量,了解数据的典型值,还可以通过确定异常值,了解数据的异常情况
(2)制图和指表,展示变量的分布情况、时间序列数据的变化趋势以及变量之间的关系。

3.关系型数据库不能满足Web2.0应用的哪些数据需求?举例说明

相关示例可以参考(来自NoSQL的资料https://blog.csdn.net/lwt1597532486/article/details/112004608)
关系数据库的不足:大量数据的写入处理;表结构变更及建立索引;字段不固定的应用;对简单查询需要快速返回结果的处理
NoSQL数据库的优势:易于数据的分散;提升性能和增大规模;模式自由;扩展性好
NewSQL 是对各种新的可扩展/高性能数据库的简称 ,具有 NoSQL 对海量数据的存储管理能力 ,保持了传统数据库支持 ACID 和 SQL 等特性

韬主要根据关系数据库的不好和其他数据库的好扯了一些乱七八糟的…

二、设计题

1.假设新浪微博使用Redis键值式数据库存储关注表、粉丝表

(1)这样做的好处

(2)粉丝表的数据动辄上亿,如何构建索引机制实现快速根据粉丝ID查询粉丝表

Redis的相关信息
数据高并发的读写 ;海量数据的读写;对扩展性要求高的数据 ;支持的数据类型包括 string、list、set、zset(有序集合)和 hash ;支持 push/pop、add/remove、集合并交差等丰富的操作,而且操作都是原子的
韬不知道怎么弄索引机制好…

2.MapReduce

(1)描述MapReduce实现表的自然连接的过程

(2)描述map函数和reduce函数的逻辑实现

网上的简单明了的图解释有很多,可以自己找个喜欢的,学习都这么痛苦了尽量找个顺眼的吧
MapReduce自然连接图解
https://www.cnblogs.com/fanweisheng/p/11262303.html

三、计算题

1.计算TF-IDF。

下图为示意图,原题为“中国”“软件”“开发”,其他数据好像一模一样。老师应该是懒得改…

(1)计算IDF和TF-IDF

(2)根据上列计算结果判断该文章的重要词汇

韬还以为就除一下没加log,裂开…
TF即词频(Term Frequency),每篇文档中关键词的频率(该文档单词/该文档单词总数)
IDF即逆文档频率(Inverse Document Frequency),文档总数/关键词t出现的文档数目,即I D F ( t ) = l n ( ( 1 + ∣ D ∣ ) / ∣ D t ∣ ) IDF(t)=ln((1+|D|)/|D_t|)IDF(t)=ln((1+∣D∣)/∣D_t ∣)(还有log等形式,自然对数被证明是最有效的一个公式)
TF-IDF的定义及计算
网络图片,侵删
网络图片,侵删

2.用户和音乐喜好的随机游走

(1)根据下表画用户和音乐喜好的二分图

(2)Alice喜欢音乐1、4、5,接下来应该推荐哪首歌给她?使用随机游走推断,并写出验证过程。

在这里插入图片描述

手绘图,数据记忆中应该差不多
随机游走的简单介绍https://blog.csdn.net/qq_38842357/article/details/80872480

四、总结

数据科学导论这门课是大数据方向的限选课,但是韬(很后悔选)快乐地学到了很多知识 。注意课程有实验有考试。这位前辈的笔记带起了整门课,感谢…山东大学数据科学导论笔记https://blog.csdn.net/zzc_zhuyu/article/details/103914217

这个写的也挺好数导复习
实验很多很多(大概5+5吧,后来放宽了可以选做),一节2学分的课有两个老师上不同内容不同进度的课,每个老师有不同的多个实验,甚至还有难以水的公开课, 真的超值!!!
图片为网络图片或来自他人网页,附部分链接。(同时感谢翔同学辅助回忆、提供相似题目图片)

  • 10
    点赞
  • 64
    收藏
    觉得还不错? 一键收藏
  • 3
    评论
山东大学数据科学导论是一门基础的数据科学课程,学生在学习过程中可能会面临很多挑战和难题。为了更好地备考和复习该课程,我推荐使用csdn(CSDN中文社区)作为复习资料。 首先,csdn是一个专门提供技术交流和资源分享的知识社区,拥有众多IT从业者、学生和爱好者参与其中,其中也包括了许多和数据科学相关的专家和研究者。在该平台上,你可以找到很多与山东大学数据科学导论课程相关的博文、教程和经验分享。这些资源可以帮助你更好地理解和掌握课程内容。 其次,csdn提供了一个开放的论坛环境,你可以在社区中与其他学生进行讨论和交流。这样一来,你不仅可以解决自己的疑惑,还可以通过与他人的交流分享自己的见解和学习心得。这种互动性有助于加深你对数据科学导论的理解和记忆。 此外,csdn还提供了一些实践项目和代码示例,可以帮助你将理论知识转化为实际应用能力。通过动手实践,你可以更深入地理解数据科学导论中的一些概念和方法,并提升自己的编程和数据处理技能。 总的来说,csdn是一个提供丰富、多样化的数据科学导论复习资料的平台。你可以在这里找到相关的学习资源、与他人交流和分享经验,并通过实践项目提升自己的实际应用能力。希望你能充分利用这个平台,取得好成绩!

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 3
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值