山东大学软件学院数据科学导论23年真题与解答

JJZZW

已于 2023-12-26 23:59:05 修改

阅读量1k

点赞数 12

分类专栏：山东大学软件学院文章标签： python 大数据

于 2023-12-26 23:56:10 首次发布

本文链接：https://blog.csdn.net/Lagrange0100/article/details/135233782

版权

山东大学软件学院专栏收录该内容

2 篇文章 0 订阅

订阅专栏

题目

来自https://blog.csdn.net/qq_16379491山东大学软件学院2022-2023数据科学导论期末试题
一、
大数据的定义和4个特点。
数据规范化的目标，并列举三个方法。
列举处理缺失数据的三个方法。
二、计算图表A，B的关系连接：INNER JOIN （内连接）和 LEFT OUTER JOIN（左向外连接）

表格和这道往年题基本是一样的：2021-2022山东大学软件学院数据科学导论期末考试回忆版_南河的南的博客-CSDN博客_山东财经大学数据科学导论期末考试

1、SELECT * FROM Table A INNER JOIN Table B ON A.sid=B.sid 画出结果表格

2、SELECT A.name, B.address FROM Table A LEFT OUTER JOIN Table B ON A.sid=B.sid 画出结果表格

三、SQL语言的类型有哪几种？创建名为student的表，包含学号（sid），姓名（name），年龄（age)。

四、关系型数据库和非关系型数据库的区别。

五、

什么是数据的集中趋势？列举三个指标。
什么是数据的离散程度？列举两个指标。
什么是数据的形状特点？列举三个指标。
最大后验估计之于极大似然估计的区别。
假设检验和参数估计的区别？说明假设检验的主要步骤。
六、说明独热表示的原理，并使用独热方式表示下面三个文档：

Doc 1: I am a boy, boy.

Doc 2: You are a girl, girl.

Doc 3: We are different, different.

七、给出日常生活中的图结构，并举出一些数据可视化的工具的例子。

解答一、

大数据的定义和4个特点:

定义: 大数据通常指的是无法在可接受时间内用传统数据库工具或数据处理方法进行捕捉、管理和处理的大规模、复杂的数据集合。
4个特点（4V）:
- Volume（体量）: 数据量巨大。
- Velocity（速度）: 数据生成和处理速度快。
- Variety（多样性）: 数据类型多样，包括结构化、半结构化和非结构化数据。
- Veracity（真实性）: 数据的质量和可信度。

数据规范化的目标:

减少数据冗余: 避免数据存储多次。
提高数据完整性: 确保数据的准确性和一致性。
优化查询性能: 简化数据结构，提高查询效率。
三个方法:
- 第一范式（1NF）: 属性不可分。
- 第二范式（2NF）: 在1NF的基础上，非主属性完全依赖于主键。
- 第三范式（3NF）: 在2NF的基础上，任何非主属性不依赖于其他非主属性。

处理缺失数据的三个方法:

删除法: 直接删除含有缺失值的行或列。
填充法: 使用特定值、平均数、中位数等填充缺失值。
预测法: 利用数据挖掘或统计方法预测缺失值。

二、

**INNER JOIN（内连接）和LEFT OUTER JOIN（左向外连接）**的关系连接:
- INNER JOIN：只有当两个表中都有匹配时，才会返回结果。
- LEFT OUTER JOIN：返回左表的所有记录，以及右表中匹配的记录；如果右表中没有匹配，则结果中右表的部分为NULL。
- **1）SELECT _ FROM Table A INNER JOIN Table B ON A.sid=B.sid_:
  - 结果表格将只包含A表和B表中具有相同sid的行的所有列。
- 2）SELECT A.name, B.address FROM Table A LEFT OUTER JOIN Table B ON A.sid=B.sid:
  - 结果表格将包含A表的所有行的name列，如果A表中的sid在B表中有对应则包含B表的address列，否则该行的address部分为NULL。

三、

SQL语言的类型:
- DDL（数据定义语言）: CREATE, ALTER, DROP等。
- DML（数据操作语言）: SELECT, INSERT, UPDATE, DELETE等。
- DCL（数据控制语言）: GRANT, REVOKE等。
- 创建名为student的表的SQL语句:

CREATE TABLE student (
    sid INT,
    name VARCHAR(100),
    age INT
);

四、

关系型数据库和非关系型数据库的区别:
- 关系型数据库:
  - 数据以表格形式存储。
  - 依赖于预定义的架构。
  - 使用SQL进行数据查询。
  - 例子：MySQL, PostgreSQL。
- 非关系型数据库:
  - 数据可以存储为键值对、文档等形式。
  - 不需要固定的架构。
  - 不一定使用SQL查询语言。
  - 适合处理大规模、分布式的数据。
  - 例子：MongoDB, Redis。

五、

数据的集中趋势:

表示数据聚集的中心点。
三个指标:
- 均值（Mean）: 所有数值的平均。
- 中位数（Median）: 所有数值中间的数。
- 众数（Mode）: 出现次数最多的数值。

数据的离散程度:

描述数据分布散布的程度。
两个指标:
- 方差（Variance）: 描述数据与均值的平均差的平方。
- 标准差（Standard Deviation）: 方差的平方根。

数据的形状特点:

描述数据分布的形状。
三个指标:
- 偏度（Skewness）: 数据分布的不对称性。
- 峰度（Kurtosis）: 数据分布的尖锐度。
- 范围（Range）: 数据的最大值与最小值之差。
最大后验估计与极大似然估计的区别:
- 极大似然估计（MLE）: 找到使得观测数据概率最大的参数值。
- 最大后验估计（MAP）: 在MLE的基础上，引入了先验知识，找到使后验概率最大化的参数值。
假设检验与参数估计的区别:
- 参数估计: 估计总体参数（如均值、方差）的值。
- 假设检验: 测试总体参数是否符合某种预定的假设。
假设检验的主要步骤:
- 步骤1: 确定零假设（(H_0)）和备择假设（(H_1)）。
- 步骤2: 选择合适的检验统计量。
- 步骤3: 确定显著性水平（如5%）。
- 步骤4: 计算检验统计量和p值。
- 步骤5: 基于p值做出决策（拒绝或不拒绝(H_0)）。

六、

独热表示的原理: 是一种将类别变量转换为机器学习算法可以理解的一种形式。具体来说，每个类别分配一个唯一的二进制向量。
- 例如，对于三个文档，首先确定词汇表：I, am, a, boy, You, are, girl, We, different。
- 然后，每个文档表示为一个长度为词汇量的向量，其中1代表词在文档中出现，0代表不出现。
  - Doc 1: [1, 1, 1, 2, 0, 0, 0, 0, 0]
  - Doc 2: [0, 0, 1, 0, 1, 1, 2, 0, 0]
  - Doc 3: [0, 0, 0, 0, 0, 0, 0, 1, 2]

七、

日常生活中的图结构:
- 社交网络中的人际关系。
- 交通网络，如城市中的道路和公交线路。
- 网站的链接结构。
数据可视化的工具例子:
- Tableau: 用于创建交互式和可共享的仪表板。
- Microsoft Power BI: 用于分析和共享洞察。
- D3.js: 动态、交互式的数据可视化的JavaScript库。