SCAU期末笔记 - 数据分析与数据挖掘题库解析

这门怎么题库答案不全啊日 来简单学一下子来

一、选择题(可多选)

  1. 将原始数据进行集成、变换、维度规约、数值规约是在以下哪个步骤的任务?(C)
    A. 频繁模式挖掘 B.分类和预测 C.数据预处理 D.数据流挖掘
  • A. 频繁模式挖掘:专注于发现数据中频繁出现的项集、序列或子结构。
  • B. 分类和预测:用已标记数据训练模型,对新数据做类别判断或数值预测。
  • C. 数据预处理:对原始数据做清洗、集成(合并多源数据)、变换(如归一化、离散化 )、维度规约(降维,减少特征数量 )、数值规约(压缩数值规模,如用均值替代细节值 )。
  • D. 数据流挖掘:针对实时、连续的数据流,实时或近实时地挖掘模式、检测异常。
  1. 简单地将数据对象集划分成不重叠的子集,使得每个数据对象恰在一个子集中,这种聚类类型称作(B)。
    A.层次聚类 B.划分聚类 C.非互斥聚类 D.模糊聚类
  • 层次聚类:构建树状层级结构,通过合并或分裂逐步形成聚类,展现数据层次关系。
  • 划分聚类:将数据硬性划分到互不重叠子集,每个对象仅属一个簇,如K-Means。
  • 非互斥聚类:允许数据对象同时属于多个簇,突破“一对一”归属限制。
  • 模糊聚类:用隶属度(0 - 1)表示对象属于各簇的程度,体现归属模糊性 。
  1. 下表是一个购物篮,假设支持度阈值为40%,其中(D)是频繁闭项集。
TID
1abc
2abcd
3bce
4acde
5de

A. abc B. ad C.cd D.de

先算各选项项集支持度,支持度=包含项集的事务数/总事务数(总事务数为5 )。“de”出现在TID4、TID5,支持度为2/5 = 40%,满足阈值;且没有超集与它支持度相同,是频繁闭项集,选D。

  1. 某超市研究销售记录数据后发现,买啤酒的人很大概率也会购买尿布,这属于数据挖掘的哪类问题?(A)
    A. 关联规则发现 B.聚类 C.分类 D.自然语言处理
  • A. 关联规则发现:挖掘数据项之间的关联模式,找出“一个事件发生时另一个事件也大概率发生”的规则(如买啤酒→买尿布 )。
  • B. 聚类:无监督地将数据划分成若干簇,让簇内数据相似、簇间数据差异大,实现数据的“自然分组”(如区分不同消费习惯的客群 )。
  • C. 分类:用标记数据训练模型,对新数据判定类别(如区分垃圾邮件/正常邮件 、识别客户是“高价值”或“低价值” )。
  • D. 自然语言处理:让计算机理解、处理人类语言文本,涉及分词、情感分析、文本生成等(如聊天机器人理解问题、新闻文本分类 ),本题场景不涉及语言处理,故不选。
  1. (B)是一个观测值,它与其他观测值的差别很大,以至于怀疑它是由不同的机制产生的。
    A. 边界点 B.离群点 C.核心点 D.质心
  • 边界点:处于簇边缘区域,密度低于核心点、高于离群点,是划分簇边界的过渡性点。
  • 离群点:与其他观测值差异极大,疑似由不同生成机制产生的异常数据点 。
  • 核心点:在密度聚类(如DBSCAN)中,邻域内数据点数量满足阈值,是簇的“核心组成”。
  • 质心:聚类里代表簇中心的点(如K-Means的簇中心),是簇内点的“平均位置”。
  1. 影响聚类算法效果的主要原因有(ABC)。
    A. 特征选取 B.模式相似性测度
    C.分类准则 D.已知类别的样本质量

  2. 在分类问题中,我们经常会遇到正负样本数据量不等的情况,比如正样本有10万条数据,负样本只有1万条数据,以下最合适的处理方法是(D)。
    A. 将负样本重复10次,生成10万样本量,打乱顺序参与分类
    B.直接进行分类,可以最大限度地利用数据
    C.从10万正样本中随机抽取1万参与分类
    D.将负样本每个权重设置为10,正样本权重为1,参与训练过程

  • A 重复负样本易过拟合
  • B 直接分类因样本不均衡模型会偏向多数类(正样本)
  • C 丢弃大量正样本浪费数据
  • D 通过设置权重,让模型训练时重视少数类(负样本),合理解决不均衡问题,选 D。
  1. 在数据清理中,处理缺失值的方法是(ABCD)。
    A. 估算 B.整列删除 C.变量删除 D.成对删除

  2. Apriori算法的计算复杂度受(ABCD)影响。
    A. 项数(维度) B.事务平均宽度 C.事务数 D.支持度例值

  3. 在关联规则中,有三个重要的指标:支持度(support)、可信度(confident)、提升度(lift),则对于规则的三个指标说法错误的是(C)。其中,表示所有的样本item数目。
    图1

  • 支持度公式 s u p p o r t = f r e q ( X , Y ) / N support = freq(X,Y)/N support=freq(X,Y)/N
  • 置信度公式 c o n f i d e n t = f r e q ( X , Y ) / f r e q ( X ) confident = freq(X,Y)/freq(X) confident=freq(X,Y)/freq(X)
  • 提升度公式 l i f t = f r e q ( X , Y ) ∗ N / ( f r e q ( X ) ∗ f r e q ( Y ) ) lift = freq(X,Y)*N/(freq(X)*freq(Y)) lift=freq(X,Y)N/(freq(X)freq(Y))
  1. 下列方法中,可以用于特征降维的方法包括(ABC)。
    A.主成分分析(PCA)
    B.线性判别分析(LDA)
    C.深度学习SparseAutoEncoder
    D.最小二乘法

最小二乘法是用于回归拟合等的方法,不用于降维

  1. 关于线性回归的描述,以下错误的是(C)。
    A.线性回归可以用于做连续值预测
    B.线性回归模型通过最小化预测值与实际观测值之间的差异来确定最佳拟合直线。
    C.线性回归假设自变量(预测变量)与因变量(响应变量)之间存在非线性关系,并尝试通过拟合一条直线或超平面来描述这种关系。
    D.线性回归是一种用于建模两个或多个变量之间关系的统计方法。

线性回归假设自变量和因变量是线性关系

  1. 假设属性income的最大/最小值分别是12000元和98000元。利用最大/最小规范化的方法将属性的值映射到0~1的范围内。对属性 income,73600元将被转化为:(D)
    A.0.821 B.1.224 C.1.458 D.0.716

最大/最小规范化公式为 x ′ = ( x − m i n ) / ( m a x − m i n ) x' = (x - min)/(max - min) x=(xmin)/(maxmin),代入 x = 73600 x = 73600 x=73600 m i n = 12000 min = 12000 min=12000 m a x = 98000 max = 98000 max=98000 ,计算得 ( 73600 − 12000 ) / ( 98000 − 12000 ) = 61600 / 86000 ≈ 0.716 (73600 - 12000)/(98000 - 12000)=61600/86000≈0.716 (7360012000)/(9800012000)=61600/860000.716 ,选D。

  1. 只有非零值才重要的二元属性被称作(C)。
    A.计数属性 B.离散属性
    C.非对称的二元属性 D.对称属性
  • 非对称二元属性是只有非零值(出现)才被认为重要
  • 对称二元属性是零值和非零值同样重要
  • 计数属性侧重统计数量
  • 离散属性是取值分散的属性
  1. 将原始数据进行集成、变换、维度规约、数值规约是以下哪个步骤的任务?(C)
    A.频繁模式挖掘 B.分类与预测
    C.数据预处理 D.数据流挖掘
  • A. 频繁模式挖掘:从数据中挖掘频繁出现的项集、序列等模式。
  • B. 分类与预测:用标记数据训练模型,对新数据分类或预测连续值。
  • C. 数据预处理:对原始数据做集成、变换、维度规约、数值规约,为后续分析做准备。
  • D. 数据流挖掘:针对实时、连续的数据流,动态挖掘模式,强调处理动态、高速数据。
  1. 下面哪种不属于数据预处理的方法?(C)
    A.变量代换 B.离散化 C.聚集 D.估计遗漏值

聚集是将数据分组汇总,属于数据挖掘分析环节,不属于预处理

  1. X = { 1 , 2 , 3 } X=\{1,2,3\} X={1,2,3}是频繁项集,则可由产生(C)个关联规则。
    A.4 B.5 C.6 D.7
  • 对于频繁项集 X = { 1 , 2 , 3 } X = \{1,2,3\} X={1,2,3},其非空真子集的数量决定关联规则数量。
  • 一个含有(n)个元素的集合,非空真子集数量为 2 n − 2 2^n - 2 2n2。这里 n = 3 n = 3 n=3,则 2 3 − 2 = 6 2^3−2 = 6 232=6
  • 具体来说,关联规则是从真子集到对应补集的规则,如 { 1 } → { 2 , 3 } \{1\}→\{2,3\} {1}{2,3} { 2 } → { 1 , 3 } \{2\}→\{1,3\} {2}{1,3} { 3 } → { 1 , 2 } \{3\}→\{1,2\} {3}{1,2} { 1 , 2 } → { 3 } \{1,2\}→\{3\} {1,2}{3} { 1 , 3 } → { 2 } \{1,3\}→\{2\} {1,3}{2} { 2 , 3 } → { 1 } \{2,3\}→\{1\} {2,3}{1} ,共6条。
  1. 一个对象的离群点得分是该对象周围密度的逆。这是基于(C)的离群点定义。
    A.概率 B.邻近度 C.密度 D.聚类
  • A. 概率:基于概率分布,离群点是出现概率极低(显著偏离分布)的数据点。
  • B. 邻近度:依据数据点间距离/相似度,离群点是与多数点“邻近度低”(距离远、相似度小 )的点。
  • C. 密度:通过周围数据密度判定,离群点是“周围密度显著低于其他点”的数据。
  • D. 聚类:利用聚类结果,离群点是不归属任何簇、或归属“小簇/边缘簇”的点。
  1. 利用Apriori算法计算频繁项集可以有效降低计算频繁集的时间复杂度。在以下的购物篮中产生支持度不小于3的候选3项集,在候选2项集中需要剪枝的是(BD)。
ID项集
1.面包、牛奶
2.面包、尿布、啤酒、鸡蛋
3.牛奶、尿布、啤酒、可乐
4.面包、牛奶、尿布、啤酒
5.面包、牛奶、尿布、可乐

A. 啤酒、尿布 B.啤酒、面包 C.面包、尿布 D.啤酒、牛奶

  • Apriori算法的剪枝依据是“如果一个项集是频繁的,那么它的所有子集也一定是频繁的;反之,如果一个项集的子集不是频繁的,那么该超集也不是频繁的,需要剪枝”。这里要产生支持度不小于3的候选3 - 项集,先看候选2 - 项集的支持度。
  • 计算各候选2 - 项集的支持度(出现次数):
    • 计算“啤酒、尿布”的支持度:在ID2、ID3、ID4中出现,支持度为3。
    • 计算“啤酒、面包”的支持度:仅在ID2中出现,支持度为1。
    • 计算“面包、尿布”的支持度:在ID2、ID4、ID5中出现,支持度为3。
    • 计算“啤酒、牛奶”的支持度:仅在ID3中出现,支持度为1。
  • 根据剪枝原理,因为“啤酒、面包”和“啤酒、牛奶”的支持度小于3,它们的超集(3 - 项集包含它们的)不可能是频繁的。
  1. 考虑值集 { 1 , 2 , 3 , 4 , 5 , 90 } \{1,2,3,4,5,90\} {1,2,3,4,5,90},其截断均值 ( p = 20 % ) (p=20\%) (p=20%)是(C)。
    A.2 B.3 C.3.5 D.5
  • 对于值集 { 1 , 2 , 3 , 4 , 5 , 90 } \{1,2,3,4,5,90\} {1,2,3,4,5,90},数据个数 n = 6 n = 6 n=6
  • p = 20 % p = 20\% p=20%,则截断的比例是 20 % 20\% 20%,需要截断的数量为 n × p = 6 × 20 % = 1.2 n\times p=6\times20\% = 1.2 n×p=6×20%=1.2,四舍五入为 1 1 1(即两端各截断 1 1 1个数据)。
  • 截断后的数据集合为 { 2 , 3 , 4 , 5 } \{2,3,4,5\} {2,3,4,5}
  • 计算截断均值,即截断后数据的平均值: x ˉ = 2 + 3 + 4 + 5 4 = 14 4 = 3.5 \bar{x}=\frac{2 + 3+4 + 5}{4}=\frac{14}{4}=3.5 xˉ=42+3+4+5=414=3.5
  1. 假设用于分析的数据包含属性age。数据元组中age的值如下(按递增序):13,15,16,16,19,20,20.21.22,22.25,25,25,30,33、33、35.35,36,40、45,46,52,70,问题:使用按箱平均值平滑方法对上述数据进行平滑,箱的深度为3。第二个箱的值为(A)。
    A.18.3 B.22.6 C.26.8 D.27.9

箱的深度为3就是每个箱里面有3个数,那按顺序第二个箱就是16,19,20,算出来的平均数也就是18.3

  1. 下列哪个不是专门用于可视化时间/空间数据的技术?(B)
    A.等高线图 B.饼图 C.曲面图 D.矢量场图
  • 等高线图、曲面图、矢量场图可用于可视化时间/空间数据
  • 饼图主要用于展示各部分占比关系,不是专门用于时间/空间数据可视化
  1. 根据规则集,灰熊属于什么类别?(C)
    规则集:
    图2
    A. 鸟 B.鱼 C.哺乳 D.爬行

  2. 神经网络分类器的特点包括(ABC)。
    A.普适近似,精度较高
    B.噪声敏感
    C.训练非常耗时

  3. 标称类型数据可以利用的数学计算为(A)。
    A.众数 B.中位数 C.均值 D.方差

  • 标称类型数据是离散的、无序的类别数据
  • 众数是指一组数据中出现次数最多的数值,可用于标称类型数据
  • 中位数、均值、方差适用于数值型数据
  1. 假设某同学使用贝叶斯分类模型时,由于失误操作,致使训练数据中两个维度重复表示。下列描述中正确的是(AB)。
    A.被重复的维度在模型中作用被加强
    B.模型效果精度降低
    C.如果所有特征都被重复一遍,则预测结果不发生变化
    D.以上说法均错误
  • 选项A
    • 在贝叶斯分类模型中,训练数据里两个维度重复表示,在计算条件概率等过程中,重复维度会被多次参与计算,其在模型中的作用会被加强。例如,假设原来一个维度 X 1 X_1 X1对分类的影响是基于其自身的概率分布,当有重复维度 X 1 ′ X_1' X1(与 X 1 X_1 X1相同)时,在计算 P ( X ∣ Y ) P(X|Y) P(XY) X X X为特征, Y Y Y为类别)时,这两个重复维度会使该特征相关的概率计算被放大,所以被重复的维度在模型中作用被加强,A正确。
  • 选项B
    • 由于重复维度导致特征的“权重”异常(被错误放大),会使模型对数据的特征判断出现偏差,进而导致模型效果精度降低,B正确。
  • 选项C
    • 如果所有特征都被重复一遍,在贝叶斯分类模型计算后验概率 P ( Y ∣ X ) P(Y|X) P(YX)时,因为特征维度的重复,计算出的概率结果会改变,预测结果也会发生变化,C错误。
  1. 关于K-Means算法,正确的描述是(B)
    A.能找到任意形状的聚类
    B.初始值不同,最终结果可能不同
    C.每次迭代的时间复杂度是 O ( n 2 ) {{O}\left({{{n}}^{{2}}}\right)} O(n2),其中n是样本数量
    D.不能使用核函数
  • K - Means算法基于距离度量,倾向于找到球形的聚类,不能找到任意形状的聚类(比如对于非球形的复杂形状聚类,K - Means效果不好),A错误。
  • K - Means算法的初始聚类中心(初始值)是随机选择的,不同的初始值可能导致最终收敛到不同的聚类结果,B正确。
  • K - Means算法每次迭代的时间复杂度是 O ( n k ) O(nk) O(nk),其中 n n n是样本数量, k k k是聚类数,而不是 O ( n 2 ) O(n^{2}) O(n2),C错误。
  • 存在核K - Means算法,是可以使用核函数的,通过核函数将数据映射到高维空间进行聚类,D错误。
  1. 考虑以下问题:假设我们有一个5层的神经网络,这个神经网络在使用一个4GB显卡时需要花费3h来完成训练。而在测试过程中,单个数据需要花费2s。如果我们现在把架构变换一下,当评分是0.2和0.3时,分别在第2层和第4层添加Dropout,那么新架构的测试所用时间会变为多少?(C)
    A.少于 2s B.大于 2s C.仍是2s D.说不准

测试阶段Dropout加了也没用,所以时间是不会变的

  1. 下面哪些属于可视化高维数据技术?(ACD)
    A.平行坐标系 B.直方图 C.散点图矩阵 D.切尔诺夫脸

直方图主要用于展示单变量数据的分布,不是高维数据可视化技术

  1. 以下关于感知机说法正确的是(C)。
    A.在Batch Learning模式下,权重调整出现在学习每个样本之后
    B.只要参数设置得当,感知机理论上可以解决各种分类问题
    C.感知机的训练过程可以看作在误差空间进行梯度下降
    D.感知机的激励函数必须采用门限函数
  • 在Batch Learning(批学习)模式下,权重调整是在学习完一批样本之后,而不是每个样本之后,A错误。
  • 感知机只能解决线性可分的分类问题,对于非线性可分问题无法解决,B错误。
  • 感知机的训练过程是基于误差来调整权重,可看作在误差空间进行梯度下降以最小化误差,C正确。
  • 感知机的激励函数通常采用门限函数,但不是必须,也可采用其他合适的非线性函数(不过经典感知机是门限函数 ),准确说不是“必须”,D错误。
  1. 在误差逆传播算法中,隐含层节点的误差信息应当(C)
    A.根据自身的期望输出和实际输出的差值计算
    B.根据所有输出层神经元的误差的均值计算
    C.根据自身下游神经元的误差进行加权计算
    D.根据自身下游神经元的误差的均值计算
  • A选项:自身期望输出和实际输出的差值是输出层误差计算方式,不是隐含层,A错误。
  • B选项:不是根据输出层神经元误差的均值,B错误。
  • C选项:符合BP算法中隐含层误差计算逻辑,根据下游神经元误差加权计算,C正确。
  • D选项:不是均值,D错误。
  1. 训练神经网络时,以下哪种激活函数最容易造成梯度消失?(B)
    A.Tanh B.sigmoid C.ReLU D.leakyReLU
  • sigmoid函数:其导数为 f ′ ( x ) = f ( x ) ( 1 − f ( x ) ) f^\prime(x)=f(x)(1 - f(x)) f(x)=f(x)(1f(x)),取值范围是 ( 0 , 0.25 ] (0,0.25] (0,0.25] 。在深度神经网络中,随着层数增加,梯度经过多次乘以这样小于 1 1 1的导数,很容易逐渐趋近于 0 0 0,造成梯度消失。
  • Tanh函数:导数为 f ′ ( x ) = 1 − f 2 ( x ) f^\prime(x)=1 - f^{2}(x) f(x)=1f2(x),取值范围是 ( 0 , 1 ] (0,1] (0,1] ,相比sigmoid函数,梯度消失问题相对弱一些。
  • ReLU函数:导数在正区间为 1 1 1,在负区间为 0 0 0,一定程度上缓解了梯度消失问题。
  • leakyReLU函数:是ReLU的改进版,在负区间导数不为 0 0 0(是一个很小的正数 ),也缓解了梯度消失问题。
  1. 关于数据预处理,以下说法错误的是(B)。
    A.可以通过聚类分析方法找出离群点
    B.数据质量的三个基本属性(指标)是正确性、精确性和完整性
    C.聚类和回归算法可在数据预处理中做数据规约操作
    D.数据集成包括内容集成和结构集成

数据质量的基本属性(指标)通常包括正确性、完整性、一致性、精确性、时效性等

  1. 如果对相同的数据进行逻辑回归,将花费更少的时间,并给出比较相似的精度(也可能不一样),怎么办?(假设在庞大的数据集上使用Logistic回归模型。可能遇到一个问题,Logistic回归需要很长时间才能训练。(D)
    A.降低学习率,减少迭代次数
    B.降低学习率,增加迭代次数
    C.提高学习率,增加迭代次数
    D.增加学习率,减少迭代次数

  2. 神经网络模型是受人脑的结构启发发明的。神经网络模型由很多神经元组成,每个神经元都接受输入,进行计算并输出结果,那么以下选项描述正确的是(B)。
    A.每个神经元只有单一的输入和单一的输出
    B.每个神经元有多个输入而只有一个输出
    C.每个神经元只有一个输入而有多个输出
    D.每个神经元有多个输入和多个输出

神经网络中的神经元通常会接收来自多个其他神经元的输入(通过突触连接),经过加权求和、激活函数等计算后,输出一个结果传递给下一层的神经元。

  1. 主成分分析(PCA)是一种重要的降维技术,以下对于PCA的描述正确的是(ABC)
    A.主成分分析是一种无监督方法
    B.主成分数量一定小于等于特征的数量
    C.各个主成分之间相互正交
    D.原始数据在第一主成分上的投影方差最小

原始数据在第一主成分上的投影方差最大

  1. 下列哪个不是数据对象的别名(C)。
    A.样品 B.实例 C.维度 D.元组

维度是指数据的特征或属性,不是数据对象的别名,它是用来描述数据对象的一个方面。

  1. 数字图像处理中常使用主成分分析(PCA)来对数据进行降维,下列关于PCA算法说法错误的是(A)。
    A.PCA是最小绝对值误差意义下的最优正交变换
    B.PCA第一个主成分拥有最大的方差
    C.PCA算法是用较少数量的特征对样本进行描述以达到降低特征空间维数的方法
    D.PCA算法通过对协方差矩阵做特征分解获得最优投影子空间,从而消除模式特征之间的相关性、突出差异性

PCA 是在最小均方误差意义下的最优正交变换,并非最小绝对值误差意义下

  1. 逻辑回归为什么是一个分类算法而不是回归算法?(A)
    A.是由于激活函数sigmod把回归问题转化成了二分类问题
    B.是由于激活函数maxsoft把回归问题转化成了二分类问题
    C.是由于激活函数Tanh把回归问题转化成了二分类问题
    D.是由于激活函数Relu把回归问题转化成了二分类问题
  • A:符合逻辑回归原理,因Sigmoid激活函数实现回归到分类的转化,A正确。
  • B:Softmax(不是maxsoft )常用于多分类,不是逻辑回归二分类的激活函数,B错误。
  • C:Tanh函数主要用于调整输出范围等,不是逻辑回归实现分类的关键激活函数,C错误。
  • D:ReLU函数常用于解决梯度消失等,不是逻辑回归分类的激活函数,D错误。
  1. 以下关于逻辑回归说法错误的是(C)。
    A.特征归一化有助于模型效果
    B.逻辑回归是一种广义线性模型
    C.逻辑回归相比最小二乘法分类器对异常值更敏感
    D.逻辑回归可以看成只有输入层和输出层且输出层为单一神经元的神经网络

最小二乘法分类器对异常值更敏感,因为最小二乘法会最小化误差平方和,异常值的误差平方会很大,严重影响模型

  1. 在NumPy数组操作中,哪个概念描述的是"不同形状数组间执行算术运算的机制"? B
    A. 向量化
    B. 广播
    C. 重塑
    D. 索引
  • A:向量化主要是指利用数组运算替代循环,提升计算效率,并非描述不同形状数组算术运算机制 。
  • B:符合题意,广播用于处理不同形状数组间的算术运算 。
  • C:重塑是改变数组的形状(如维度、元素排列等 ),和不同形状数组算术运算机制无关 。
  • D:索引是用于访问数组中的元素或子数组,不是关于不同形状数组算术运算的机制 。
  1. 在数据统计分析中,箱线图(Boxplot)的箱体部分主要表示什么统计量? C
    A) 数据全距
    B) 数据均值
    C) 数据四分位距
    D) 数据标准差
  • A:数据全距是最大值与最小值的差,对应箱线图的 whiskers(须)相关范围,不是箱体 。
  • B:数据均值在箱线图中一般用线或点表示(若显示),不是箱体 。
  • D:数据标准差是衡量数据离散程度的指标,箱线图箱体不表示标准差 。
  1. Pandas中,哪种数据结构最适合存储和操作带标签的一维数据? C
    A) DataFrame
    B) Panel
    C) Series
    D) Index
  • A:DataFrame 是二维数据结构,用于存储表格型数据。
  • B:Panel 主要用于三维数据,不是针对一维带标签数据。
  • D:Index 是索引对象,用于标识 Series 或 DataFrame 的行或列。
  1. 下列哪种属性用数字表示符号或名称,但仅用于区分对象类别? C
    A. 二元属性
    B. 序数属性
    C. 标称属性
    D. 数值属性
  • 二元属性:是只有两个取值(如0和1)的属性,主要用于表示是否存在等二元情况。
  • 序数属性:其取值是有顺序的,除了区分类别还能体现顺序关系。
  • 标称属性:用数字表示符号或名称,仅用于区分对象类别,没有顺序、距离等含义。
  • 数值属性:是可以进行数值计算(如加减乘除等 )的属性。
  1. 余弦相似性主要用于度量哪种数据的相似性? C
    A. 二元属性
    B. 序数属性
    C. 文档关键词向量
    D. 混合类型属性

C选项符合余弦相似性的典型应用,用于度量文档关键词向量的相似性。

  1. 下列哪个统计量对噪声数据最敏感? C
    A. 中位数
    B. 众数
    C. 均值
    D. 四分位数

  2. 非对称二元属性中,通常如何编码重要状态? B
    A. 用0表示重要状态
    B. 用1表示重要状态(通常是稀有结果)
    C. 必须对称编码(0和1等价)
    D. 用负数表示重要状态

  3. 盒图(箱线图)中,异常值的判定依据是? B
    A. 超出均值±2倍标准差
    B. 超出Q1-1.5×IQR或Q3+1.5×IQR
    C. 小于最小值或大于最大值
    D. 与众数的距离超过阈值

  4. 在数据预处理中,以下哪项描述最准确地解释了“噪声数据”的来源? A
    A. 数据采集设备故障或传输错误导致的随机误差
    B. 属性命名不一致引起的冗余问题
    C. 不同数据源的结构差异导致的不一致
    D. 人为录入时故意省略部分数据值

  • 属性命名不一致是冗余问题
  • 不同数据源结构差异是不一致问题
  • 人为故意省略数据值是缺失值问题
  1. 关于数据集成中的“实体识别”,以下说法正确的是?B
    A. 用于检测重复元组并删除冗余记录
    B. 解决不同数据源中相同属性的命名差异问题(如 customer_id 与 cust_no)
    C. 通过分箱或回归技术处理数据中的离群点
    D. 将数据从高维空间投影到低维空间以减少特征数量
  • A选项:检测重复元组并删除冗余记录是重复数据删除,不是实体识别。
  • C选项:通过分箱或回归技术处理离群点是数据预处理中处理离群点的方法,与实体识别无关。
  • D选项:将数据从高维空间投影到低维空间减少特征数量是降维(如PCA),不是实体识别。
  1. 在数据变换策略中,“离散化”的主要目的是? C
    A. 将数据缩放到特定区间(如 [0,1])以消除量纲影响
    B. 构造新属性以增强数据表达能力
    C. 将连续型数据转换为离散区间,适应分类算法需求
    D. 对稀疏数据进行中心化处理以保留数据结构

  2. 回归分析主要用于解决什么问题? B
    A. 预测离散型因变量
    B. 研究因变量与自变量之间的统计关系
    C. 处理图像分类任务
    D. 降低数据维度

  3. 若因变量是二分类变量(如“是/否”),应选择哪种回归技术? C
    A. 线性回归
    B. 多项式回归
    C. 逻辑回归
    D. 岭回归

  • A选项:线性回归用于因变量是连续型的情况。
  • B选项:多项式回归也是针对连续因变量。
  • D选项:岭回归主要用于解决线性回归的多重共线性问题,因变量是连续型。
  1. 关于一元线性回归的假设,以下哪项是错误的? B
    A. 自变量与因变量需有线性关系
    B. 对异常值不敏感
    C. 需避免多重共线性
    D. 通过最小二乘法估计参数

  2. Apriori算法利用什么性质压缩搜索空间? C
    A. 闭项集性质
    B. 极大项集性质
    C. 先验性质(频繁项集的子集必频繁)
    D. 支持度单调性

  3. FP-growth算法的核心思想是什么? B
    A. 生成候选项集并剪枝
    B. 将事务数据库压缩为FP树
    C. 使用垂直数据格式
    D. 基于抽样减少计算量

  • 生成候选项集并剪枝是Apriori算法的特点
  • C和D不是核心思想
  1. 以下关于极大频繁项集的定义,正确的是? B
    A. 支持度最高的项集
    B. 不存在包含它的频繁超项集
    C. 其所有子集都是频繁的
    D. 支持度等于最小支持度阈值

  2. 规则 A⇒B 的置信度如何计算? A
    A. support_count(A∪B)/support_count(A)
    B. support_count(A)/support_count(B)
    C. support_count(A∪B)/总事务数
    D. support_count(B)/support_count(A)

规则 A ⇒ B A \Rightarrow B AB 的置信度计算公式为 confidence ( A ⇒ B ) = support_count ( A ∪ B ) support_count ( A ) \text{confidence}(A \Rightarrow B)=\frac{\text{support\_count}(A \cup B)}{\text{support\_count}(A)} confidence(AB)=support_count(A)support_count(AB),表示在包含 A A A 的事务中,同时包含 B B B 的比例。

  1. 在决策树算法中,C4.5相比ID3的主要改进是什么? B
    A. 使用信息增益作为属性选择度量
    B. 引入增益率并支持连续属性和缺失值处理
    C. 改用基尼指数作为属性选择度量
    D. 取消了树剪枝步骤以简化算法
  • A选项:ID3 也使用信息增益。
  • C选项:基尼指数是 CART 算法的度量。
  • D选项:C4.5 有剪枝步骤,不是取消。
  1. 支持向量机(SVM)的硬间隔最大化要求? B
    A. 允许部分样本分类错误
    B. 训练数据必须严格线性可分
    C. 使用核函数映射到高维空间
    D. 调整支持向量的权重
  • A选项:允许部分样本分类错误是软间隔。
  • C选项:核函数用于处理非线性可分情况,不是硬间隔要求。
  • D选项:并非核心。
  1. 关于模型评估中的ROC曲线,以下描述正确的是? C
    A. 横轴是召回率(Recall),纵轴是精度(Precision)
    B. 曲线下面积(AUC)越小表示模型性能越好
    C. 每个点对应不同分类阈值下的真正例率和假正例率
    D. 主要用于处理类别不平衡问题
  • A选项:ROC曲线横轴是假正例率(FPR),纵轴是真正例率(TPR,召回率)。
  • B选项:AUC越大表示模型性能越好。
  • D选项:ROC曲线主要用于评估模型在不同阈值下的分类性能。
  1. 随机森林算法中,构建单棵决策树的关键步骤是? B
    A. 从原始训练集无放回抽样选取样本
    B. 在分裂结点时随机选择部分特征进行划分
    C. 所有树使用完全相同的训练样本和特征
    D. 仅使用信息增益作为分裂标准

随机森林构建单棵决策树时,关键步骤是在分裂结点时随机选择部分特征进行划分(特征随机选择 ),同时样本是有放回抽样(袋外抽样 )。

  • A选项:有放回。
  • C选项:样本和特征都是随机选取,不是完全相同。
  • D选项:分裂标准不止信息增益,还有基尼指数等。
  1. 正则化在机器学习模型选择中的作用是? B
    A. 提高模型在训练集上的拟合能力
    B. 通过添加惩罚项降低模型复杂度,控制过拟合
    C. 直接优化验证集的准确率
    D. 增加特征维度以提升模型表达能力
  • 正则化会限制模型对训练集的过度拟合。
  • 不能直接优化验证集准确率,是间接通过控制复杂度提升泛化能力。
  • 正则化不增加特征维度。
  1. 关于无监督学习,以下描述正确的是? B
    A. 需要预先标记数据类别
    B. 主要功能是发现数据分布特点和离群样本
    C. 适用于特征维度低的数据降维
    D. 与监督学习的核心区别是模型复杂度更高
  • 有监督学习需要预先标记类别,无监督不需要。
  • 无监督学习可用于高维数据降维,不是仅低维。
  • 与监督学习核心区别是有无标签。
  1. K-Means算法的核心缺点是什么? B
    A. 无法处理高维数据
    B. 必须预先指定簇数量且对噪声敏感
    C. 计算复杂度高达 O(n²)
    D. 只能使用欧氏距离度量相似性

K - Means 算法的核心缺点是必须预先指定簇数量(K 值),且对噪声和离群点敏感,会影响聚类结果。

  1. 层次聚类中“凝聚方法”的特点是什么? B
    A. 从全数据集开始逐步分裂簇
    B. 从单个对象开始逐步合并簇
    C. 仅适用于凸形状的簇
    D. 必须使用最长距离法度量簇间距离
  • 从全数据集开始逐步分裂簇是分裂方法的特点
  • 还适用于数据探索等
  • 也可以用最小距离、平均距离等
  1. DBSCAN算法中“核心点”的定义是? B
    A. 任意两个对象密度可达的点
    B. Eps邻域内对象数不少于MinPts的点
    C. 落在其他核心点邻域内的点
    D. 与所有对象距离均小于Eps的点

  2. 轮廓系数(Silhouette Coefficient)的作用是? C
    A. 估计数据集的聚类趋势
    B. 确定最佳簇数量
    C. 衡量聚类结果的簇内紧凑度和簇间分离度
    D. 计算聚类结果与真实标签的匹配度

  • A选项:估计聚类趋势有其他方法(如Hopkins统计量 ),不是轮廓系数作用。
  • B选项:并非核心。
  • D选项:计算与真实标签匹配度是有监督评估指标(如ARI )的作用。
  1. 神经网络的基本组成单元是什么? C
    A. 树突
    B. 轴突
    C. 神经元
    D. 突触

  2. 感知机(Perceptron)的主要局限性是什么? A
    A. 只能处理线性可分问题
    B. 训练效率过高导致过拟合
    C. 适用于多分类任务
    D. 基于支持向量机原理

  • B选项:并非主要。
  • C选项:感知机主要用于二分类任务,不是多分类。
  • D选项:感知机基于神经元模型,和支持向量机原理不同。
  1. BP神经网络中,反向传播算法的核心策略是什么? B
    A. 随机初始化权重
    B. 基于梯度下降调整参数
    C. 使用卷积运算优化
    D. 仅依赖正向传播计算
  • A选项:随机初始化权重是初始化步骤。
  • C选项:卷积运算用于卷积神经网络。
  • D选项:反向传播依赖反向计算梯度,不是仅正向。
  1. 深度学习中,卷积神经网络(CNN)的“权值共享”机制的主要作用是什么? B
    A. 增加网络参数数量以提高复杂度
    B. 减少参数数量并保证特征识别一致性
    C. 适用于序列数据处理
    D. 加速梯度下降收敛
  • A选项:权值共享是减少参数,不是增加。
  • C选项:序列数据处理是循环神经网络(RNN)等擅长的,不是 CNN 权值共享的作用。
  • D选项:权值共享主要影响参数和特征识别,不是加速梯度下降收敛。
  1. 以下哪种神经网络最适合处理时间序列数据(如语音或股票预测)? D
    A. 多层感知机(MLP)
    B. 卷积神经网络(CNN)
    C. 生成对抗网络(GAN)
    D. 循环神经网络(RNN)
  • 循环神经网络(RNN)通过自身循环结构,能处理时间序列数据,捕捉序列中前后依赖关系,适合语音、股票预测等场景
  • 多层感知机(MLP)适合简单非线性分类回归,不擅长序列
  • 卷积神经网络(CNN)侧重空间特征提取
  • 生成对抗网络(GAN)用于生成数据。

二、判断题

  1. 离群点可以是合法的数据对象或者值。()

  2. 关联规则挖掘过程是发现满足最小支持度的所有项集代表的规则。(×)

关联规则挖掘需同时满足最小支持度和最小置信度

  1. K均值是一种产生划分聚类的基于密度的聚类算法,簇的个数由算法自动确定。(×)

K 均值是基于划分的聚类算法,需预先指定簇数量(K 值 ),且不是基于密度

  1. 如果一个对象不属于任何簇,那么该对象是基于聚类的离群点。()

  2. 数据挖掘的主要任务是从数据中发现潜在的规则,从而能更好地完成描述数据、预测数据等任务。()

  3. 数据挖掘的目标不在于数据采集策略,而在于对已经存在的数据进行模式的发掘。()

  4. 用于分类的离散化方法之间的根本区别在于是否使用类信息。()

  5. 特征提取技术并不依赖于特定的领域。(×)

特征提取技术依赖领域知识,不同领域(如医疗、图像 )数据特点不同,特征提取方式、目标有差异

  1. 定量属性可以是整数值或者是连续值。()

  2. 利用先验原理可以帮助减少频繁项集产生时需要探查的候选项个数。()

  3. 先验原理可以表述为:如果一个项集是频繁的,则包含它的所有项集也是频繁的。(×)

如果一个项集是频繁的,则其所有子集也频繁;若一个项集非频繁,则其所有超集也非频繁

  1. 分类和回归都可用于预测,分类的输出是离散的类别值,而回归的输出是连续数值。()

  2. 贝叶斯法是一种在已知后验概率与类条件概率的情况下的模式分类方法,待分样本的分类结果取决于各类域中样本的全体。(×)

贝叶斯法是已知先验概率和类条件概率,通过贝叶斯公式计算后验概率分类,且分类结果取决于后验概率最大的类

  1. 分类模型的误差大致分为两种:训练误差和泛化误差。()

  2. 在聚类分析当中,簇内的相似性越大,簇间的差别越大,聚类的效果就越差。(×)

聚类效果理想的情况是簇内相似性大、簇间差别大,此时聚类效果好

  1. 给定由两次运行K均值产生的两个不同的簇集,误差的平方和最大的那个应该被视为较优。(×)

K 均值中误差平方和越小,说明簇内样本越紧凑,聚类效果越好

  1. 线性回归模型由于自身的局限性只能描述变量间的线性关系。()

  2. 基于模型的聚类与基于分割的聚类相比,对数据分布有更好的描述性。()

  3. 具有较高的支持度的项集具有较高的置信度。(×)

支持度和置信度无必然正相关,高支持度项集置信度不一定

  1. 可以利用概率统计方法估计数据的分布参数,再进一步估计待测试数据的概率,以此来实现贝叶斯分类。()

  2. 数据库中某属性缺失值比较多时,数据清理可以采用忽略元组的方法。()

  3. 逻辑回归等同于一个使用交叉熵loss,且没有隐藏层的神经网络。()

  4. 分类和回归都可用于预测,分类的输出是连续数值,而回归的输出是离散的类别值。(×)

分类输出离散类别,回归输出连续数值

  1. 皮尔逊相关系数可用来判断X和Y之间的因果关系。(×)

皮尔逊相关系数衡量线性相关程度,不反映因果关系

  1. 样品是数据对象的别名。()

  2. 杰卡德系数用来度量非对称的二进制属性的相似性。()

  3. K均值聚类的核心目标是将给定的数据集划分为K个簇,并给出每个数据对应的簇中心点。(×)

K 均值聚类核心是将数据集划分为 K 个簇,使簇内样本相似度高、簇间低,会确定每个簇的中心点(质心 ),但 “给出每个数据对应的簇中心点” 表述不准确,质心是簇的代表,不是每个数据对应

  1. 离散属性总是具有有限个值。()

  2. 聚类是这样的过程:它找出描述并区分数据类或概念的模型(或函数),以便能够使用模型预测类标记未知的对象类。(×)

描述的是分类(有监督,预测类标记 ),聚类是无监督,找数据内在结构,不预测类标记

  1. K-Means++能够解决初始点影响聚类效果的问题。()

  2. 聚类分析可以看作一种非监督的分类。()

  3. Python中,元组(Tuple)和字符串(String)都属于不可变数据类型。()

  4. NumPy的广播机制(broadcasting)要求参与运算的两个数组必须具有完全相同的形状。(×)

NumPy 广播机制允许形状兼容(如维度可扩展匹配 )的数组运算,无需形状完全相同

  1. Pandas的DataFrame数据结构可以看作是由多个共用同一个索引的Series组成的字典。()

  2. Scikit-learn主要支持传统机器学习算法(如SVM、随机森林),不支持深度学习算法。()

  3. 序数属性的取值之间具有明确的数值差。(×)

序数属性取值有顺序关系,但无明确数值差(如 “低、中、高” )

  1. 混合类型属性的相似性度量需先对每种属性类型单独标准化。()

  2. 维(Dimension)、特征(Feature)和属性(Attribute)在数据挖掘中可互换使用。()

  3. 均值对噪声数据敏感,而中位数对噪声数据的鲁棒性更强。()

  4. 序数属性可计算算术均值以度量中心趋势。(×)

序数属性取值无数值意义,算术均值不适用,常用中位数等

  1. 散点图属于几何投影可视化技术,可展示二维数据分布。()

  2. 混合类型属性的相似性计算需对所有属性统一标准化后再度量。(×)

混合类型属性相似性计算需对不同类型(如数值、分类 )分别处理(编码、标准化等 )

  1. 数据预处理的必要性源于现实世界数据常存在噪声、缺失和不一致问题,高质量数据需满足准确性、完整性和一致性。()

  2. 在数据归约中,“维归约”通过抽样技术减少数据量,例如用随机子集代表整体数据集。(×)

“维归约” 是减少特征数量(如 PCA ),题目说的是 “样本归约”

  1. 多项式回归可以通过增加高次项拟合非线性数据,但可能导致过拟合。()

  2. 岭回归通过加入L1正则项剔除不重要的自变量,解决多重共线性问题。(×)

岭回归加入的是 L2 正则项,L1 正则项是 Lasso 回归的做法

  1. 在变量选择中,逐步回归法通过统计指标(如R²、AIC)自动添加或删除自变量。()

  2. 关联规则的支持度反映规则的有用性,置信度反映规则的确定性。()

  3. 极大频繁项集(Maximal Frequent Itemset)一定是闭频繁项集(Closed Itemset)。()

  4. Apriori算法在挖掘k项频繁集时,需要扫描数据库k次。()

  5. FP-growth算法在挖掘过程中不需要生成候选项集。()

  6. 提升度(Lift)> 1 表示规则中的项集具有正相关性。()

  7. 在决策树剪枝中,后剪枝方法先构建完整决策树,再自底向上进行剪枝。()

  8. SVM处理非线性数据时,必须显式计算高维映射后的特征向量。(×)

SVM 处理非线性数据用核函数,无需显式计算高维映射特征

  1. k-折交叉验证中,当k等于样本总量时称为简单交叉验证。(×)

k - 折交叉验证中,k 等于样本总量时是留一交叉验证

  1. 袋装(Bagging)方法中,每个基分类器的投票权重根据其准确率动态调整。(×)

Bagging 中基分类器投票权重通常相等,AdaBoost 才动态调整权重

  1. 随机森林的Forest-RI方法通过属性线性组合创建新特征进行分裂。(×)

随机森林是随机选择属性子集分裂

  1. K-means++算法通过随机选择初始中心点,避免收敛到局部最优解。(×)

K - means++ 是按距离概率选初始中心点

  1. 在层次聚类中,“类平均法”以两类中心点的距离作为簇间距离。(×)

类平均法是用两类所有样本对的平均距离作簇间距离

  1. DBSCAN算法能有效识别任意形状的簇,但对参数Eps和MinPts敏感。()

  2. 模糊C均值聚类(FCM)要求每个数据点严格属于单一簇。(×)

模糊 C 均值聚类(FCM)是让数据点以隶属度属于多个簇

  1. 霍普金斯统计量(Hopkins statistic)接近0.5时,表明数据具有显著聚类趋势。(×)

霍普金斯统计量接近 1 表明数据有显著聚类趋势,接近 0.5 说明无明显聚类趋势

  1. 神经网络可以用于分类任务和数值预测任务。()

  2. BP神经网络的训练效率高且收敛速度快,适合大规模数据场景。(×)

BP 神经网络易陷入局部最优,训练效率不高,不适合大规模数据场景

  1. 深度学习模型参数越多,模型复杂度越高,但大数据可以降低过拟合风险。()

  2. 生成对抗网络(GAN)的训练依赖于生成模型和判别模型的相互博弈。()

  3. 卷积神经网络(CNN)的池化层主要用于增加特征图的维度以提升精度。(×)

池化层主要用于降维、保留关键特征、增强鲁棒性

三、简答题

  1. 基于正态分布的离群点检测
    假设某城市过去10年中7月份的平均温度按递增序排列,结果为24℃、28.9℃、28.9℃、29℃、29.1℃、29.1℃、29.2℃、29.2℃、29.3℃和29.4℃。假定平均温度服从正态分布,由两个参数决定:均值和标准差。假设数据分布在这个区间(以平均值标准差为区间)之外,该数据对象即为离群点。
    (1)利用最大似然估计求均值和标准差。
  • 计算均值
    μ ^ = 24 + 28.9 + 28.9 + 29 + 29.1 + 29.1 + 29.2 + 29.2 + 29.3 + 29.4 10 \hat{\mu}=\frac{24 + 28.9+28.9+29+29.1+29.1+29.2+29.2+29.3+29.4}{10} μ^=1024+28.9+28.9+29+29.1+29.1+29.2+29.2+29.3+29.4
    = 285.1 10 = 28.51 ∘ C =\frac{285.1}{10} = 28.51^{\circ}C =10285.1=28.51C

  • 计算标准差
    先算每个数据与均值的差的平方和:
    ( 24 − 28.51 ) 2 + ( 28.9 − 28.51 ) 2 × 2 + ( 29 − 28.51 ) 2 + ( 29.1 − 28.51 ) 2 × 2 + ( 29.2 − 28.51 ) 2 × 2 + ( 29.3 − 28.51 ) 2 + ( 29.4 − 28.51 ) 2 (24 - 28.51)^2+(28.9 - 28.51)^2\times2+(29 - 28.51)^2+(29.1 - 28.51)^2\times2+(29.2 - 28.51)^2\times2+(29.3 - 28.51)^2+(29.4 - 28.51)^2 (2428.51)2+(28.928.51)2×2+(2928.51)2+(29.128.51)2×2+(29.228.51)2×2+(29.328.51)2+(29.428.51)2
    = 20.3401 + 0.1521 × 2 + 0.2401 + 0.3481 × 2 + 0.4761 × 2 + 0.6241 + 0.7921 = 20.3401+0.1521\times2 + 0.2401+0.3481\times2+0.4761\times2+0.6241+0.7921 =20.3401+0.1521×2+0.2401+0.3481×2+0.4761×2+0.6241+0.7921
    = 20.3401 + 0.3042 + 0.2401 + 0.6962 + 0.9522 + 0.6241 + 0.7921 = 20.3401 + 0.3042+0.2401+0.6962+0.9522+0.6241+0.7921 =20.3401+0.3042+0.2401+0.6962+0.9522+0.6241+0.7921
    = 23.949 = 23.949 =23.949

σ ^ = 23.949 10 = 2.3949 ≈ 1.547 ∘ C \hat{\sigma}=\sqrt{\frac{23.949}{10}}=\sqrt{2.3949}\approx1.547^{\circ}C σ^=1023.949 =2.3949 1.547C

(2)寻找上述10个对象中的所有离群点。

每个看一下是否满足题目要求的条件,最后发现只有24℃是离群点

  1. 研究学习时间( x x x,小时)与考试成绩( y y y,分)的关系。现有5组样本数据:
x x x12345
y y y5060708090

(1)参数估计:用最小二乘法求回归方程 y = β 0 + β 1 x y=β_0+β_1x y=β0+β1x的系数 β 0 β_0 β0 β 1 β_1 β1(给出计算过程)。
(2)预测:若学习时间 x x x=6 小时,预测考试成绩 y y y
(3)拟合优度:计算判定系数 R 2 R^2 R2

  1. 预测房价( y y y,万元)与房屋面积( x 1 x_1 x1,㎡)和房龄( x 2 x_2 x2,年)的关系。回归模型为: y = β 0 + β 1 x 1 + β 2 x 2 + ϵ y=β_0+β_1x_1+β_2x_2+ϵ y=β0+β1x1+β2x2+ϵ
    已知正规方程组的解为:
    { β 0 = 50 β 1 = 0.8 β 2 = − 2 \left\{{\begin{matrix}β_0=50\\β_1=0.8\\β_2=-2\\\end{matrix}}\right. β0=50β1=0.8β2=2
    问题:
    (1)预测:求面积 x 1 x_1 x1=100㎡、房龄 x 2 x_2 x2=5年的房价预测值 y y y
    (2)系数解释:说明 β 1 β_1 β1=0.8 和 β 2 β_2 β2=-2 的实际意义。
    (3)共线性问题:若 x 1 x_1 x1 x 2 x_2 x2的相关系数为0.95,对模型有何影响?应如何处理?

  2. Apriori算法在数据挖掘中被广泛使用,已知有5000名球迷看奥运会,看乒乓球比赛和看篮球比赛的人数分别如下表所示:

看乒乓球没看乒乓球合计(行)
看篮球200017503750
没看篮球10002501250
合计(列)300020005000

计算“”的支持度比例(Support)、置信度比例(Confidence)、提升度(Lift)。

  1. 事务数据库(min_sup=40%):
    T1: {A, B, C}
    T2: {A, B, D}
    T3: {A, C}
    T4: {B, C}
    T5: {A, B}
    (1)列出所有频繁1项集和频繁2项集(支持度用分数表示)。
    (2)判断项集{A,B}是否为闭频繁项集,并说明理由。
    (3)找出极大频繁项集(需写出推理过程)。

  2. 事务数据库(min_sup=50%):
    T1: {牛奶, 面包}
    T2: {面包, 尿布}
    T3: {牛奶, 尿布}
    T4: {面包, 牛奶, 尿布}
    T5: {牛奶}
    (1)写出Apriori算法求解频繁项集的过程(从L₁到L₃,需包含连接、剪枝步骤)。
    (2)若最小置信度为75%,从频繁项集{牛奶, 面包}生成关联规则,并计算规则置信度。

  3. 事务数据库(min_sup=40%):
    T1: {A, B, C}
    T2: {A, C}
    T3: {A, D}
    T4: {B, C, E}
    (1)按支持度降序排列项,并画出FP树结构(需包含项头表)。
    (2)求项C的条件模式基,并基于此推导C的频繁项集。

  4. 给定规则:牛奶 → 尿布,统计信息如下:
    支持度(牛奶, 尿布) = 0.4
    支持度(牛奶) = 0.6
    支持度(尿布) = 0.5
    (1)计算规则置信度。
    (2)计算提升度(Lift),并解释其意义。
    (3)若提升度=1.2,说明该规则是否有意义?为什么?

  5. 认识数据
    假设描述学生的信息包含以下属性:性别,籍贯,年龄。记录,和,的信息如下,分别求出记录和簇彼此之间的距离。
    图3

  6. 已知:训练集合中垃圾邮件的比例为P(h+)=0.2;训练集合中正常邮件的比例为P(h-)=0.8;单词出现频率表如下:

分词在垃圾邮件中出现的比例在正常邮件中出现的比例
免费0.30.01
奖励0.20.01
网站0.20.2

求解:判断一封邮件D=<“免费”“奖励”“网站”>是否是垃圾邮件?

  1. 假设正常对象被分类为离群点的概率是0.01,而离群点被分类为离群点概率为0.99,如果99%的对象都是正常的,那么检测率和假警告率各为多少?(使用下面的定义)

检测率=检测出的离群点个数/离群点的总数
假警告率=假离群点个数/被分类为离群点的个数

  1. 从某超市顾客中随机抽取5名,他们的购物篮数据的二元0/1表示如下:
顾客号面包牛奶尿布啤酒鸡蛋可乐
1110000
2101110
3011101
4111100
5111001

某学生依据这些数据做关联分析,考虑规则{牛奶,尿布}→{啤酒},请计算该规则的支持度(support)、置信度(confidence)。

  1. 相异性计算
    给定两个元组(22,1,42,10)和(20,0,36,8):
    (1)计算这两个对象之间的欧几里得距离。
    (2)计算这两个对象之间的曼哈顿距离。
    (3)使用 p = 3 p=3 p=3,计算这两个对象之间的闵可夫斯基距离。
    (4)计算这两个对象之间的上确界距离。

  2. 对于数据:{12,9,7,6,20,100,35,21,11,18,25,37},完成以下任务:
    (1)计算它的平均值,20%的截断均值和中位数,并说明这三个统计特征在描述数据集方面的特点。
    (2)使用最小-最大规范方法将其中的6,100,35转换到[0,1]。
    (3)对数据按照深度为4进行划分,再写出按边界值进行平滑后的结果。

  3. 假设我们手上有60个正样本,40个负样本,我们要找出所有的正样本,系统查找出50个,其中只有40个是真正的正样本,计算上述各指标。
    请计算:
    (1)TP(将正类预测为正类数)
    (2)FN(将正类预测为负类数)
    (3)FP(将负类预测为正类数)
    (4)TN(将负类预测为负类数)
    (5)准确率(accuracy)
    (6)精确率(precision)
    (7)召回率(recall)

  4. (1) 给定二分类混淆矩阵:
    TP=40, FP=10, FN=20, TN=30
    计算准确率(Accuracy)、召回率(Recall)和F1值(F1-score)。
    (2) 简述ROC曲线的绘制步骤,并解释AUC的含义。
    (3) 什么是过拟合?在决策树中如何防止过拟合?
    (4) 现有数据集采用5折交叉验证:
    描述第2折的训练集和验证集如何划分。
    为什么交叉验证可以用于模型选择?

  5. 证明反向传播公式
    已知条件:
    神经网络结构:输入层 → 隐藏层(第 l l l 层)→ 输出层(第 k k k 层)
    激活函数:Sigmoid ,其导数 σ ′ ( z ) = σ ( z ) ( 1 − σ ( z ) ) \sigma'(z) = \sigma(z)(1-\sigma(z)) σ(z)=σ(z)(1σ(z))
    损失函数:均方误差 L = 1 2 ( y − y ^ ) 2 L = \frac{1}{2}(y - \hat{y})^2 L=21(yy^)2,其中 y ^ \hat{y} y^ 为输出层预测值, y y y 为真实标签
    符号定义:
    z j ( l ) z_j^{(l)} zj(l):第 l l l 层神经元 j j j 的预激活值(加权输入)
    a j ( l ) a_j^{(l)} aj(l):第 l l l 层神经元 j j j 的激活输出
    w i j ( l ) w_{ij}^{(l)} wij(l):连接第 l l l 层神经元 j j j 与第 l + 1 l+1 l+1 层神经元 i i i 的权重
    δ j ( l ) \delta_j^{(l)} δj(l):输出层误差项
    待证明公式:
    隐藏层误差项满足: δ j ( l ) = σ ′ ( z j ( l ) ) ∑ i w i j ( l ) δ i ( l + 1 ) \delta_j^{(l)} = \sigma'(z_j^{(l)}) \sum_{i} w_{ij}^{(l)} \delta_i^{(l+1)} δj(l)=σ(zj(l))iwij(l)δi(l+1)

四、应用题

  1. 给定圆的半径为 ϵ \epsilon ϵ,令MinPts=3,考虑下面两幅图,以 ϵ \epsilon ϵ 为例。
    (题目中未明确图示内容,保留原题格式)
    (1)哪些对象是核心对象?
    (2)哪些对象是直接密度可达的?
    (3)哪些对象是密度可达的?
    (4)哪些对象是密度相连的?
    (5) 假设给定一个非空二维数据点集P,给定圆的半径为 ϵ \epsilon ϵ,MinPts=3,使用python实现基于密度的聚类算法,需给出具体的算法步骤。

  2. 数据集:给定二维数据集,需划分为 k k k 个簇。初始聚类中心为 C 1 C_1 C1 C 2 C_2 C2。目标:完成一次完整的K-means迭代(分配数据点 + 更新中心)。
    (1)K-means算法的核心步骤是什么?需说明迭代终止条件。
    (2)计算点到聚类中心的欧氏距离。
    (3)判断以下说法是否正确并说明理由:
    “K-means对初始中心敏感,可能陷入局部最优;轮廓系数可评估聚类质量,其值越接近1表示聚类效果越好。”
    (4)假设分配后,簇1包含点集 S 1 S_1 S1,簇2包含点集 S 2 S_2 S2。求更新后的聚类中心 C 1 ′ C_1' C1 C 2 ′ C_2' C2 的坐标表达式。
    (5)Python实现K-Means聚类代码。

  3. 对于如下的前馈神经网络,假设现在有一个训练样本, x 1 = 1 x_1=1 x1=1 x 2 = 0 x_2=0 x2=0 x 3 = 1 x_3=1 x3=1,其对应的类标号(标签)为1,节点4、5、6的激活函数为sigmoid函数,结构如下图所示:(p279)
    (题目中未明确图示内容,保留原题格式)
    网络的初始输入、权值( w w w)和偏置值(4、5、6节点分别为 b 4 b_4 b4 b 5 b_5 b5 b 6 b_6 b6)如下表所示:

x 1x 2x 3w 14w 15w 24w 25w 34w 35w 46w 56θ 4θ 5θ 6
1010.2-0.30.40.1-0.50.2-0.3-0.2-0.40.20.1

(1)请计算节点4、5、6的净输入和输出。
(2)请计算节点4、5、6的误差。
(3)假设学习率为0.9,请计算上表中所有权值和偏置的一次更新。
(4)请问什么是梯度消失?
(5)请使用Python实现批量梯度下降法算法,先给出具体的算法步骤,再给出相应的代码。

  1. 前馈神经网络
    网络结构:
    输入层:2个神经元(输入 x 1 , x 2 x_1, x_2 x1,x2
    隐藏层:2个神经元(激活函数为 Sigmoid)
    输出层:1个神经元(激活函数为 Sigmoid)
    参数:
    输入层→隐藏层权重 W ( 1 ) W^{(1)} W(1),偏置 b ( 1 ) b^{(1)} b(1)
    隐藏层→输出层权重 W ( 2 ) W^{(2)} W(2),偏置 b ( 2 ) b^{(2)} b(2)
    损失函数:均方误差 L = 1 2 ( y − y ^ ) 2 L = \frac{1}{2}(y - \hat{y})^2 L=21(yy^)2 y y y 为真实标签, y ^ \hat{y} y^ 为预测输出)。
    (1)前馈神经网络的信息流动方向是什么?隐藏层和输出层的激活函数分别起什么作用?
    (2)给定输入样本 ( x 1 , x 2 ) (x_1, x_2) (x1,x2),求隐藏层神经元的净输入 z ( 1 ) z^{(1)} z(1)、激活输出 a ( 1 ) a^{(1)} a(1) 及输出层神经元的净输入 z ( 2 ) z^{(2)} z(2)、最终输出 y ^ \hat{y} y^ 的表达式。
    (3)判断以下说法是否正确并说明理由:
    “前馈神经网络因信息单向传播,无法处理序列数据(如时间序列预测)。”
    (4) 假设前向传播后得到输出 y ^ \hat{y} y^,真实标签为 y y y。推导输出层误差项 δ ( 2 ) \delta^{(2)} δ(2) 和隐藏层误差项 δ ( 1 ) \delta^{(1)} δ(1) 的表达式(需写出链式法则过程)。
    (5) 将上述前馈神经网络的代码使用python代码实现。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值