聚类算法之CHAMELEON(Java实现)

最新推荐文章于 2023-08-14 10:49:46 发布

B_H_L

最新推荐文章于 2023-08-14 10:49:46 发布

阅读量2.8k

点赞数

分类专栏： data mining

data mining 专栏收录该内容

17 篇文章 0 订阅

订阅专栏

CHAMELEON是一种两阶段聚类法。第一阶段把点分成很多小的簇；第二阶段根据相近程度合并这些小的簇。第一阶段采用K最邻近法，即把一个点和它最邻近的K个点连接起来。第二阶段计算任意两个簇的互连性RI和紧密性RC，当两个指标都比较大时才合并这两个簇。

相对互连度 $RI(C_i,C_j)=\frac{2*|EC(C_i,C_j)|}{|EC(C_i)|+|EC(C_j)|}$

相对紧密度 $RC(C_i,C_j)=\frac{(|C_i|+|C_j|)EC(C_i,C_j)}{|C_j|EC(C_i)+|C_i|EC(C_j)}$

|C_i|表示簇i内数据点的个数；EC(C_i)表示簇i内所有边的权重和；EC(C_i,C_j)表示跨越两个簇的所有边的权重和。

下图是第一阶段后形成的几个小的子簇：

把子簇合并后形成的最终簇划分：

CHAMELEON具有两个特点：（1）适合于高维数据的聚类，在文本分类中，每个文本都被表示为一个数千维的向量。（2）采用k-邻近图可以动态地捕捉邻域概念，在稠密区域邻域比较窄，在稀疏区域邻域比较宽，这相比于DBSCAN中的全局邻域密度来说容易获得更自然的邻域。

下面给出CHAMELEON算法的核心代码：

100

101

102

103

104

105

106

107

108

109

110

111

112

113

114

115

116

117

118

119

120

121

122

123

124

125

126

127

128

129

130

131

132

133

134

135

136

137

138

139

140

141

142

143

144

145

146

147

148

149

150

151

152

153

154

155

156

157

158

159

160

161

162

163

164

165

166

167

168

169

170

171

172

173

174

175

176

177

178

179

180

181

182

183

184

185

186

187

188

189

190

191

192

193

194

195

196

197

198

199

200

201

202

203

204

205

206

207

208

209

210

211

212

213

214

215

216

217

218

219

220

221

222

223

224

225

226

227

228

229

230

231

232

233

234

235

236

237

238

239

240

241

242

243

244

245

246

247

248

249

250

251

252

253

254

255

256

257

258

259

260

261

262

263

264

265

266

267

268

269

270

 
         /** 
        
         * Author: Orisun 
        
         * Date: Sep 13, 2011 
        
         * FileName: chameleon.java 
        
         * Function:  
        
         */ 
        
         package  
         orisun; 
        
         import  
         java.io.DataInputStream; 
        
         import  
         java.io.DataOutputStream; 
        
         import  
         java.io.File; 
        
         import  
         java.io.FileNotFoundException; 
        
         import  
         java.io.FileOutputStream; 
        
         import  
         java.io.FileInputStream; 
        
         import  
         java.io.IOException; 
        
         import  
         java.util.zip.DeflaterOutputStream; 
        
         import  
         java.util.zip.InflaterInputStream; 
        
         import  
         java.util.ArrayList; 
        
         import  
         java.util.Comparator; 
        
         import  
         java.util.HashMap; 
        
         import  
         java.util.Iterator; 
        
         import  
         java.util.LinkedList; 
        
         import  
         java.util.Map; 
        
         import  
         java.util.PriorityQueue; 
        
         import  
         java.util.Map.Entry; 
        
         import  
         java.util.Queue; 
        
         import  
         java.util.Vector; 
        
         public  
         class  
         Chameleon { 
        
         float 
         [][] W;  
         // weight矩阵(方阵) 
        
         byte 
         [][] Conn;  
         // 连接矩阵(方阵) 
        
         Vector<Vector<Integer>> clusters; 
        
         double  
         MI;  
         // 综合指数 
        
         // 构造函数，初始化变量 
        
         public  
         Chameleon( 
         int  
         datanum,  
         double  
         mi) { 
        
         W =  
         new  
         float 
         [datanum][]; 
        
         for  
         ( 
         int  
         i =  
         0 
         ; i < datanum; i++) { 
        
         W[i] =  
         new  
         float 
         [datanum]; 
        
         } 
        
         Conn =  
         new  
         byte 
         [datanum][]; 
        
         for  
         ( 
         int  
         i =  
         0 
         ; i < datanum; i++) { 
        
         // 由于是无向图，连接矩阵是对称的，所以我们只用矩阵的下三角以节约空间 
        
         Conn[i] =  
         new  
         byte 
         [i +  
         1 
         ]; 
        
         } 
        
         clusters =  
         new  
         Vector<Vector<Integer>>(); 
        
         MI = mi; 
        
         } 
        
         // 构造weight矩阵。根据两点间距离的倒数计算两点的相似度，作为连接权重 
        
         public  
         void  
         buildWeightMatrix(ArrayList<DataObject> objects) { 
        
         for  
         ( 
         int  
         i =  
         0 
         ; i < W.length; i++) { 
        
         W[i][i] =  
         1 
         .0f; 
        
         for  
         ( 
         int  
         j = i +  
         1 
         ; j < W[i].length; j++) { 
        
         float  
         dist = ( 
         float 
         ) Global.calEuraDist(objects.get(i) 
        
         .getVector(), objects.get(j).getVector(), objects 
        
         .get(j).getVector().length); 
        
         W[i][j] = W[j][i] =  
         1  
         / ( 
         1  
         + dist); 
        
         } 
        
         } 
        
         } 
        
         // 把weight矩阵写入文件，下次计算相同实例时免得重新计算 
        
         public  
         void  
         writeWeightToFile(File file) { 
        
         DataOutputStream fout; 
        
         try  
         { 
        
         fout =  
         new  
         DataOutputStream( 
        
         new  
         DeflaterOutputStream( 
         new  
         FileOutputStream(file))); 
        
         fout.writeInt(W.length);     
         //先把方阵的边长写入文件 
        
         for 
         ( 
         int  
         i= 
         0 
         ;i<W.length;i++) 
        
         for 
         ( 
         int  
         j= 
         0 
         ;j<W.length;j++) 
        
         fout.writeFloat(W[i][j]); 
        
         fout.close(); 
        
         }  
         catch  
         (FileNotFoundException e) { 
        
         System.err.println( 
         "File Not Found!" 
         ); 
        
         } 
         catch 
         (IOException e){ 
        
         e.printStackTrace(); 
        
         } 
        
         } 
        
         // 从文件读入weight矩阵 
        
         public  
         void  
         readWeightFromFile(File file){ 
        
         DataInputStream fin; 
        
         try  
         { 
        
         fin =  
         new  
         DataInputStream( 
        
         new  
         InflaterInputStream( 
         new  
         FileInputStream(file))); 
        
         fin.readInt();   
         //第一个数字是方阵的边长，略过 
        
         for 
         ( 
         int  
         i= 
         0 
         ;i<W.length;i++) 
        
         for 
         ( 
         int  
         j= 
         0 
         ;j<W.length;j++) 
        
         W[i][j]=fin.readFloat(); 
        
         fin.close(); 
        
         }  
         catch  
         (FileNotFoundException e) { 
        
         System.err.println( 
         "File Not Found!" 
         ); 
        
         } 
         catch 
         (IOException e){ 
        
         e.printStackTrace(); 
        
         } 
        
         } 
        
         // CHAMELEON第一阶段，按照K最邻近建立较小的子簇 
        
         public  
         void  
         buildSmallCluster() { 
        
         PriorityQueue<Entry<Integer, Float>> pq =  
         new  
         PriorityQueue<Entry<Integer, Float>>( 
        
         Global.k,  
         new  
         Comparator<Map.Entry<Integer, Float>>() { 
        
         public  
         int  
         compare(Entry<Integer, Float> arg0, 
        
         Entry<Integer, Float> arg1) { 
        
         return  
         arg0.getValue().compareTo(arg1.getValue()); 
        
         } 
        
         }); 
        
         for  
         ( 
         int  
         i =  
         0 
         ; i < W.length; i++) { 
        
         pq.clear(); 
        
         int  
         j =  
         0 
         ; 
        
         HashMap<Integer, Float> map =  
         new  
         HashMap<Integer, Float>(); 
        
         // 找到与object距离最小（亦即相似度最大）的K个点 
        
         for  
         (; j < Global.k; j++) { 
        
         map.clear(); 
        
         map.put(j, W[i][j]); 
        
         pq.add(map.entrySet().iterator().next()); 
        
         } 
        
         for  
         (; j < W[i].length; j++) { 
        
         if  
         (W[i][j] > pq.peek().getValue()) { 
        
         pq.poll(); 
        
         map.clear(); 
        
         map.put(j, W[i][j]); 
        
         pq.add(map.entrySet().iterator().next()); 
        
         } 
        
         } 
        
         for  
         (j =  
         0 
         ; j < Global.k; j++) { 
        
         Entry<Integer, Float> entry = pq.poll(); 
        
         if  
         (i > entry.getKey()) 
        
         Conn[i][entry.getKey()] =  
         1 
         ; 
        
         else  
         if  
         (i < entry.getKey()) 
        
         Conn[entry.getKey()][i] =  
         1 
         ; 
        
         // 对角线上的设为0 
        
         } 
        
         } 
        
         // 根据连接矩阵构造连通子图 
        
         boolean 
         [] visited =  
         new  
         boolean 
         [W.length]; 
        
         boolean  
         allvisited =  
         false 
         ; 
        
         while  
         (!allvisited) { 
        
         allvisited =  
         true 
         ; 
        
         L1:  
         for  
         ( 
         int  
         i =  
         0 
         ; i < W.length; i++) { 
        
         if  
         (visited[i]) 
        
         continue 
         ; 
        
         allvisited =  
         false 
         ; 
        
         // 搜寻第i列，以图发现新子图的第一个点 
        
         for  
         ( 
         int  
         j = i +  
         1 
         ; j < W.length; j++) { 
        
         // 发现了新子图的第一个点 
        
         if  
         (Conn[j][i] ==  
         1 
         ) { 
        
         Vector<Integer> cluster =  
         new  
         Vector<Integer>(); 
        
         Queue<Integer> queue =  
         new  
         LinkedList<Integer>(); 
        
         queue.add(i); 
        
         queue.add(j); 
        
         while  
         (!queue.isEmpty()) { 
        
         int  
         ele = queue.poll(); 
        
         cluster.add(ele); 
        
         visited[ele] =  
         true 
         ; 
        
         // 遍历第ele列 
        
         for  
         ( 
         int  
         k = ele +  
         1 
         ; k < W.length; k++) { 
        
         if  
         (visited[k]) 
        
         continue 
         ; 
        
         if  
         (Conn[k][ele] ==  
         1  
         && !queue.contains(k)) { 
        
         queue.add(k); 
        
         } 
        
         } 
        
         // 遍历第ele行 
        
         for  
         ( 
         int  
         k =  
         0 
         ; k < ele; k++) { 
        
         if  
         (visited[k]) 
        
         continue 
         ; 
        
         if  
         (Conn[ele][k] ==  
         1  
         && !queue.contains(k)) 
        
         queue.add(k); 
        
         } 
        
         } 
        
         clusters.add(cluster); 
        
         break  
         L1; 
        
         } 
        
         } 
        
         } 
        
         } 
        
         } 
        
         // 打印子簇 
        
         public  
         void  
         printClusters() { 
        
         for  
         ( 
         int  
         i =  
         0 
         ; i < clusters.size(); i++) { 
        
         System.out.print( 
         "以下数据点属于第"  
         + i +  
         "簇：" 
         ); 
        
         Iterator<Integer> iter = clusters.get(i).iterator(); 
        
         while  
         (iter.hasNext()) { 
        
         System.out.print(iter.next() +  
         "," 
         ); 
        
         } 
        
         System.out.println(); 
        
         } 
        
         } 
        
         // CHAMELEON第二阶段，合并相对互联度RI和相对紧密度RC都较高的簇 
        
         public  
         void  
         cluster() { 
        
         int  
         len = clusters.size(); 
        
         float 
         [] EC1 =  
         new  
         float 
         [len]; 
        
         for  
         ( 
         int  
         i =  
         0 
         ; i < len; i++) { 
        
         Vector<Integer> vec = clusters.get(i); 
        
         for  
         ( 
         int  
         j =  
         0 
         ; j < vec.size(); j++) { 
        
         for  
         ( 
         int  
         k =  
         0 
         ; k < vec.size(); k++) { 
        
         EC1[i] += W[vec.get(j)][vec.get(k)]; 
        
         } 
        
         } 
        
         } 
        
         boolean  
         end =  
         true 
         ; 
        
         for  
         ( 
         int  
         i =  
         0 
         ; i < clusters.size(); i++) { 
        
         for  
         ( 
         int  
         j = i +  
         1 
         ; j < clusters.size(); j++) { 
        
         Vector<Integer> vec1 = clusters.get(i); 
        
         Vector<Integer> vec2 = clusters.get(j); 
        
         float  
         EC =  
         0 
         .0f; 
        
         float  
         RI =  
         0 
         .0f; 
        
         float  
         SEC =  
         0 
         .0f; 
        
         float  
         RC =  
         0 
         .0f; 
        
         for  
         ( 
         int  
         k =  
         0 
         ; k < vec1.size(); k++) { 
        
         for  
         ( 
         int  
         m =  
         0 
         ; m < vec2.size(); m++) { 
        
         EC += W[vec1.get(k)][vec2.get(m)]; 
        
         } 
        
         } 
        
         RI =  
         2  
         * EC / (EC1[i] + EC1[j]); 
        
         RC = (vec1.size() + vec2.size()) * EC 
        
         / (vec2.size() * EC1[i] + vec1.size() * EC1[j]); 
        
         // 以RI*RC作为综合指数 
        
         if  
         (RI * RC > MI) { 
        
         mergeClusters(i, j); 
        
         end =  
         false 
         ; 
        
         break 
         ; 
        
         } 
        
         } 
        
         } 
        
         // 递归合并子簇 
        
         if  
         (!end) 
        
         cluster(); 
        
         } 
        
         // 把簇b合并到簇a里面去 
        
         public  
         void  
         mergeClusters( 
         int  
         a,  
         int  
         b) { 
        
         Iterator<Integer> iter = clusters.get(b).iterator(); 
        
         while  
         (iter.hasNext()) { 
        
         clusters.get(a).add(iter.next()); 
        
         } 
        
         clusters.remove(b); 
        
         } 
        
         public  
         static  
         void  
         main(String[] args) { 
        
         Global.setK( 
         2 
         );  
         // 2最邻近，这里面包括它自己 
        
         DataSource datasource =  
         new  
         DataSource(); 
        
         datasource.readMatrix( 
         new  
         File( 
         "/home/orisun/test/dot.mat" 
         )); 
        
         datasource.readRLabel( 
         new  
         File( 
         "/home/orisun/test/dot.rlabel" 
         )); 
        
         //      datasource.readMatrix(new File("/home/orisun/test/text.normalized.mat")); 
        
         //      datasource.readRLabel(new File("/home/orisun/test/text.rlabel")); 
        
         //      File wfile=new File("/home/orisun/test/test_weight"); 
        
         //      if(!wfile.exists()){ 
        
         //          try { 
        
         //              wfile.createNewFile(); 
        
         //          } catch (IOException e) { 
        
         //              e.printStackTrace(); 
        
         //          } 
        
         //      } 
        
         //综合指数0.1 
        
         Chameleon cham =  
         new  
         Chameleon(datasource.row,  
         0.1 
         ); 
        
         //      cham.readWeightFromFile(wfile); 
        
         cham.buildWeightMatrix(datasource.objects); 
        
         //      cham.writeWeightToFile(wfile); 
        
         cham.buildSmallCluster(); 
        
         System.out.println( 
         "==============第一阶段后的分类结果==============" 
         ); 
        
         cham.printClusters(); 
        
         cham.cluster(); 
        
         System.out.println( 
         "==============第二阶段后的分类结果==============" 
         ); 
        
         cham.printClusters(); 
        
         } 
        
         }