lingPipe重要方法解析

最新推荐文章于 2024-08-12 11:03:19 发布

kaikailiukai

最新推荐文章于 2024-08-12 11:03:19 发布

阅读量494

点赞数

文章标签： random

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/kaikailiukai/article/details/7859283

版权

进行k-均值聚类

1. 首先初始化一个聚类对象：

KMeansClustererLabel<String> clusterer

= new KMeansClustererLabel<String>( FEATURE_EXTRACTOR ,

numClusters,

maxIterations,

false ,0.0)

2.调用对象的聚类方法：

public Set<Set<E>> cluster(Set<? extends E> elementSet,

Random random,

Reporter reporter)

在这个聚类方法中：

(1). 首先通过toVectors方法

MapSymbolTable symTab

= toVectors(elements,featuress,valss,eltSqLengths); //初始化 featuress，valss eltSqLengths

(2). 然后通过 kmeansPlusPlusInit初始化 closestCenters， centroidss，

kmeansPlusPlusInit(featuress,valss,eltSqLengths,

closestCenters,

centroidss,

random);

（3）. 最后调用kMeansEpochs进行迭代

kMeansEpochs(elements,eltSqLengths,

centroidss,

featuress,valss,

sqDistToCenters,closestCenters,

mMaxEpochs,reporter);

在kMeansEpochs方法中

1）.在每次迭代中将 changedClusters分成两部分，通过 numChangedClusters开划分，前半部分是变化的类，后半部分是不在变化的类

2）.在每次迭代中，遍历所有的样本，找出这个样本距离最近的类心，距这个类心的距离，确定这个样本所属的类。

3）.初始化 scoreMapList，根据样本所属类

scoreMapList.get(closestCenters[i]).set(elements[i],

sqDistToCenters[i] == 0.0 ? -Double. MIN_VALUE : -sqDistToCenters [i]

);

4）.给类内的成员进行排序并对类进行打分

Set<E> cluster

= new LinkedHashSet<E>(clusterDistances.keysOrderedByValueList()); //得到该团中所有的key,其结果是按value的大小进行排序

clusterScores.set(cluster, //不同的团的样本放在不同的团中

totalScores[k] == 0.0 //如何这个团的分为 0.0，则将value设为负无穷大，否则为团的总分/团的大小

? -Double. MIN_VALUE

: totalScores[k]/cluster.size());

5）.按照各类的分值对最终结果中的类进行排序

Set<Set<E>> result = new LinkedHashSet<Set<E>>(clusterScores.keysOrderedByValueList()); //得到全部的团key,并按团的value(总分)进行排序

关注

0
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。