BANDWIDTH ADAPTIVE HARDWARE ARCHITECTURE OF K-MEANS CLUSTERING FOR INTELLIGENT VIDEO PROCESSING
本文提出了一种带宽自适应的K-Means聚类硬件结构。实验结果表明,该硬件采用TSMC 90 nm工艺,最高时钟频率可达400 MHz,并能以多种并行模式处理不同维数的特征向量,有效利用了输入带宽。
根据聚类数K,随机选取K个向量作为K个聚类的质心。在随机确定K个质心之前,硬件需要读取所有输入向量。这种方法也称为Forgy初始化。代表第k个簇中心。对于每个输入向量,计算其与各个簇中心的距离(可以选择曼哈顿距离或欧几里德距离进行距离测量),将其分配到距离最近的簇中心所在的簇。
更新簇中心:
达到最大迭代次数或迭代差值小于阈值停止迭代
图1(a)是距离计算模块,图1(b)是累加或取最小模块,即图2中的M-S模块,M时取最小,S时相加
图1
图2
本文提出的“八层并行M-S处理单元集”模块包含一组树形结构的“M-S处理单元(M-S PE)”模块。对于多层模块,“M-S PE”模块的数量为2^L-1,并且在图2(a)中示出了3层示例,图(a)所示结构有三种模式,图2(b)为k=2,输入4个一维数据的情况,图2(c)为k=2,输入2个二维数据的情况,图2(d)为k=2,输入为1个四维数据的情况。
图3
图3(a)是求和更新引擎”模块的结构, 图3(b)是求和更新引擎模块中的求和处理单元(Sum PE)模块的结构。
图4
图4为“矢量除法器”,除数为0保留原值,除数不为0相除 “矢量除法器”模块包含16个非恢复位串行除法器,能够在10个周期内计算16维矢量的除法。计算新簇质心的总循环数取决于簇的数量。例如,计算16维的总共10个簇质心需要100个周期。
图5 “3层结构”的总体架构(注意本文提出的是8层结构,这里应该是以3层结构为例画图)
图6 不同的模式会有不同的延迟
实验结果:
图像分割测试结果:图像为5维数据包括颜色维度和空间维度。
参考文献: