一些用于聚类和分类问题的数据集

毕业设计时简单研究了聚类和分类问题,整理了一下用到的数据集,有需要的可以参考一下。。。

聚类数据集信息

序号数据集记录数特征数类别简单分布是否有overlap来源
1iris1504350/50/50NoUCI
2wine17813359/71/48NoUCI
3emotions(music)593726173/166/264/148/168/189YESsourceforge
4yeast241710314混合分布YESsourceforge
5scene24072946427/364/397/433/533/431YESsourceforge
6wdbc569302212/357NoUCI
7breasttissue1069621/15/18/16/14/22NoUCI
8seeds2107370/70/70NoUCI
9glass21496(7)70/76/17/13/9/29NoUCI

分类数据集信息

序号数据集记录数特征数类别简单分布是否有缺失值来源
1appendicitis1067221/85NoKEEL
2balance62543288/49/288NoKEEL,UCI
3banana5300222924/2376NoKEEL
4bands365(539)192230/135YesKEEL,UCI
5bupa34562145/200NoKEEL,UCI
6cleveland297(303)135160/54/35/35/13YesKEEL,UCI
7dermatology358(366)346111/60/71/48/48/20YesKEEL,UCI
8haberman30632225/81NoKEEL,UCI
9hayes-roth1604365/64/31NoKEEL,UCI
10heart270132150/120NoKEEL,UCI
11hepatitis80(155)19213/67YesKEEL,UCI
12ionosphere351342225/126NoKEEL,UCI
13iris1504350/50/50NoKEEL,UCI
14led7digit50071045/37/51/57/52/52/47/57/53/49NoKEEL,UCI
15mammographic830(961)52427/403NoKEEL,UCI
16marketing6876(8993)1391255/529/505/618/527/846/784/1069/743YesKEEL,biolab
17monks243272290/142NoKEEL,UCI
18movement_libras360901524/…/24NoKEEL,UCI
19newthyroid21553150/35/30NoKEEL,UCI
20pageblocks54731054913/329/28/88/115NoKEEL,UCI
21penbased100921610NoKEEL,UCI
22phoneme5404523818/1586NoKEEL,UCL
23pima76882500/268NoKEEL,UCI
24ring74002023664/3736NoKEEL,UTO
25satimage64353671533/703/1358/626/707/0/1508NoKEEL,UCI
26segment2310197330/…/330NoKEEL,UCI
27sonar20860297/111NoKEEL,UCI
28spambase4597(4601)5722788/1813YesKEEL,UCI
29spectfheart26744255/212NoKEEL,UCI
30tae1515349/50/52NoKEEL,UCI
31texture55004011500/…/500NoKEEL,UCL
32thyroid7200213166/368/6666NoKEEL,UCI
33titanic2201321490/711NoKEEL,TOR
34twonorm74002023703/3697NoKEEL,UTO
35vehicle846184212/218/199/217NoKEEL,UCI
36vowel990131190/…/90NoKEEL,UCI
37wdbc569302212/357NoUCI
38wine17813359/71/48NoUCI
39winequality-red1599111110/53/681/638/199/18NoKEEL,UCI
40wisconsin683(699)92444/239NoKEEL,UCI
  • 95
    点赞
  • 518
    收藏
    觉得还不错? 一键收藏
  • 20
    评论
.mat 聚类数据集是一种常见的数据文件格式,用于存储和处理聚类相关的数据。该数据格式通常包含一个或多个聚类的特征向量,以及每个向量所属的聚类标签。 这种数据集可以被用于聚类分析,即将相似的数据点划分为不同的聚类聚类是一种无监督学习方法,它不需要预先定义类别,而是根据数据之间的相似性进行自动分类。 在.mat 聚类数据集中,每个数据点通常用一个特征向量表示,这个向量可以包含多个特征,比如数值、文本等信息。这些特征向量可以通过各种聚类算法进行聚类分析。一旦聚类完成,数据集中的每个数据点都会被分配到一个特定的聚类标签。 聚类标签是一个用于表示数据点所属聚类的标识符。可以用数字、字符或其他表示方式来表示聚类标签。通常,在.mat聚类数据集中,每个数据点都会有一个相应的聚类标签,表示它所属的聚类。 使用.mat聚类数据集可以帮助我们理解数据的内在结构和模式。通过聚类分析,我们可以识别出不同聚类之间的差异和共同点,从而深入了解数据集中的信息。 总之,.mat聚类数据集是一种常见的存储和处理聚类相关数据的格式。它可以通过聚类算法自动识别数据集中的模式和结构,并为每个数据点分配相应的聚类标签。这种数据集对于聚类分析和数据挖掘非常有用。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 20
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值