根据我的理论,在rating里把用户的不同item的评价看成一个一个的样本,这样就联系到matlab中的聚类方法了。把用户聚起来类看看。已有的rating数据文件是分为训练集和测试集用的,并且已经把rating矩阵处理成一个行向量。我的任务是
1、把这个行向量文件load进matlab中用一个矩阵x来存储。x的行数M既是rating的用户数也是样本数,y=pdist(x)计算出了M*(M-1)/2个距离,是样本间两两距离。squareform(y)将距离格式化为一个对称矩阵。
2、z=linkage(y)
得到一个(M-1)*3的矩阵。前两列为标识,表示哪两个样本可以聚成一类。第三列是这两个样本的距离.用聚类树来表示dendrogram(z,n),最下面是样本,然后一级一级向上聚类dendrogram(z,0)表示显示所有叶子