第七单元 聚类分析
-
通过代码”from sklearn.cluster import KMeans”引入Kmenas模块,生成模型对象“kmeans = KMeans(n_clusters=2)”后,对于数据X训练时要调用的方法是()。
A.kmeans.fit()
B.kmaens.fit()
C.kmaens.train()
D.kmeans.train() -
通过代码”from sklearn.cluster import KMeans”引入Kmenas模块后,生成模型对象“kmeans = KMeans(n_clusters=3)”并完成对数据X完成聚类后,以下哪个代码可以查看每个样本所属簇的标签()。
A.kmeans.y_
B.kmeans. labels_
C.kmeans.targets_
D.kmeans.output_ -
以下哪种情况对Kmeans模型的影响较小()。
A.给定错误聚类个数
B.数据有各向异性分布
C.不同簇的方差相差较大
D.簇的大小分布不均衡 -
在利用sklearn.cluster.AgglomerativeClustering进行凝聚聚类时,使用的默认距离度量是()。
A.余弦距离
B.马氏距离
C.曼哈顿距离
D.欧氏距离 -
根据聚类形成的簇的特点,如果有交集的簇之间必然存在包含关系,这种聚类称为( )。
A.划分型聚类
B.层次型聚类
C.以上均不是
D.重叠聚类 -
给定密度阙值为3,对象o的ξ邻域中有5个对象,那么o是( )。
A.集中点
B.关键点
C.高密度点
D.核心点 -
轮廓系数的取值范围是( )。
A.[0,1]
B.[-1,0]
C.[-1,1]
D.[0,∞) -
P(22,1,42,10),Q(20,0,36,8)为两个向量对象,这两个对象的欧几里得距离是( )。
A.6
B. 233 3 \sqrt[3]{233} 3233
C.11
D. 45 2 \sqrt[2]{45} 245 -
P(22,1,42,10),Q(20,0,36,8)为两个向量对象,这两个对象的切比雪夫距离是( )。
A.6
B. 233 3 \sqrt[3]{233} 3233
C.11
D. 45 2 \sqrt[2]{45} 245 -
P(22,1,42,10),Q(20,0,36,8)为两个向量对象,这两个对象的闵可夫斯基距离(x=3) 是( )。
A.6
B. 233 3 \sqrt[3]{233} 3233
C.11
D. 45 2 \sqrt[2]{45} 245 -
下面哪些聚类方法易于发现特殊形状的簇?
A.DBSCAN
B.基于密度的聚类方法
C.层次聚类
D.k均值聚类 -
关于聚类下列说法正确的是( )。
A.聚类可以发现偏离多数数据对象的孤立点。
B.聚类可以作为其他数据挖掘分析过程的一个基础处理步骤。
C.聚类有着广泛的应用。
D.聚类和分类没有区别。 -
聚类分析的过程中,聚类效果较好时属于同一个簇的对象相似度很高,而属于不同簇的对象相似度很低。√
-
摄氏温度属于比例属性。×
-
多种属性相似度的综合度量,可以先对单个属性进行相似度度量,然后求所有属性相似度的均值作为整个对象相似度。√
-
凝聚层次聚类法中每次簇的合并可以更改。×
-
基于随机游走理论的链接相似度衡量方法(称为SimRank)计算两结点间的相似度,具有有界性、对称性、单调递增性、三角不等式性质。√
-
轮廓系数是将凝聚度和分离度相结合的一种度量,越大聚类效果越好。√
-
DBSCAN是一种基于密度的聚类方法, 容易发现特殊形状的簇。√
-
K均值聚类需要提前设定K值,而凝聚层次法不需要预先设置参数。√
-
二值属性分为对称属性和非对称属性
-
Jaccard系数适用于衡量用非对称二值属性描述的对象间的相似度。