今天在实验室项目中,对2014年的一篇个人认为较为经典的聚类算法论文的复现时,遇到了这样一个问题。这篇论文叫做“Clustering by fast search and find of density peaks”,我打算做的是人脸图片聚类的复现,其数据来源是the Olivetti Face Database。
说到这里,我想对正在从事研究项目的本科生和经验不多的研究生分享一下经验。先要真正学点什么,最好还是看SCI和EI,IEEE等等这些国际知名的大型期刊,因为这些论文都很“实在”。国内的中文核心,很多时候都能做出一个很好的效果,但前提是:1.实验数据太特殊了,数学语言就是“条件太强了”;2.很多时候不给例程,就是说,我们知道他做的很好,但是想复现,还是自己从头做一个比较快。而前文提到的那些国际期刊则很少出现这些问题(可能我刚开始,没遇到),程序给的很全(虽然有的小地方可能跟论文不一样,这篇就是),而且数据的来源完全可以轻松找到,或者可以跟作者联系,也能很容易获得。而对于这篇文章,每一个检测的例子,数据都在文章中可以找得到,对我的复现工作有极大帮助。
当下载好数据后,发现这是一些pgm格式的文件。之前我是从来没有接触过这种格式的,对于这样的情况,我喜欢用fopen来进行读取。
其函数格式如下:
FID = fopen(FILENAME,PERMISSION)
其中filename是文件名称,需包含扩展名并用双引号包起来,而permission是该函数的一些参数。参数内容如下:
‘r’ open file for reading 打开