【机器学习】 - 作业5: 基于Kmeans算法的AAAI会议论文聚类分析

曼城周杰伦

已于 2023-05-20 00:40:22 修改

阅读量751

点赞数 1

分类专栏：学堂在线文章标签：机器学习人工智能算法

于 2023-05-19 21:32:20 首次发布

本文链接：https://blog.csdn.net/victor_manches/article/details/130774399

版权

学堂在线专栏收录该内容

29 篇文章

订阅专栏

课程链接: 清华大学驭风计划

代码仓库：Victor94-king/MachineLearning: MachineLearning basic introduction (github.com)

驭风计划是由清华大学老师教授的，其分为四门课，包括: 机器学习(张敏教授) ，深度学习(胡晓林教授), 计算机语言(刘知远教授) 以及数据结构与算法(邓俊辉教授)。本人是综合成绩第一名，除了数据结构与算法其他单科均为第一名。代码和报告均为本人自己实现，由于篇幅限制，只展示任务布置以及关键代码，如果需要报告或者代码可以私聊博主

机器学习部分授课老师为张敏教授，主要主要通过介绍决策树，线性回归，贝叶斯模型，SVM算法，K近邻算法，Kmeans算法以及集成学习算法等入门机器学习。

有任何疑问或者问题，也欢迎私信博主，大家可以相互讨论交流哟~~

本次实验以AAAI 2014会议论文数据为基础，要求实现或调用无监督聚类算法，了解聚类方法。

任务介绍

每年国际上召开的大大小小学术会议不计其数，发表了非常多的论文。在计算机领域的一些大型学术会议上，一次就可以发表涉及各个方向的几百篇论文。按论文的主题、内容进行聚类，有助于人们高效地查找和获得所需要的论文。本案例数据来源于AAAI 2014上发表的约400篇文章，由UCI公开提供，提供包括标题、作者、关键词、摘要在内的信息，希望大家能根据这些信息，合理地构造特征向量来表示这些论文，并设计实现或调用聚类算法对论文进行聚类。最后也可以对聚类结果进行观察，看每一类都是什么样的论文，是否有一些主题。

基本要求：

将文本转化为向量，实现或调用无监督聚类算法，对论文聚类，例如10类（可使用已有工具包例如sklearn）；
观察每一类中的论文，调整算法使结果较为合理；
无监督聚类没有标签，效果较难评价，因此没有硬性指标，跑通即可，主要让大家了解和感受聚类算法，比较简单。

扩展要求：

对文本向量进行降维，并将聚类结果可视化成散点图。

注：group和topic也不能完全算是标签，因为

有些文章作者投稿时可能会选择某个group/topic但实际和另外group/topic也相关甚至更相关；
一篇文章可能有多个group和topic，作为标签会出现有的文章同属多个类别，这里暂不考虑这样的聚类；
group和topic的取值很多，但聚类常常希望指定聚合成出例如5/10/20类；
感兴趣但同学可以思考利用group和topic信息来量化评价无监督聚类结果，不作要求。

提示：

高维向量的降维旨在去除一些高相关性的特征维度，保留最有用的信息，用更低维的向量表示高维数据，常用的方法有PCA和t-SNE等；
降维与聚类是两件不同的事情，聚类实际上在降维前的高维向量和降维后的低维向量上都可以进行，结果也可能截然不同；
高维向量做聚类，降维可视化后若有同一类的点不在一起，是正常的。在高维空间中它们可能是在一起的，降维后损失了一些信息。

报告

核心代码

自己实现的Kmeans算法

class My_keans(object):
    def __init__(self, n = 8, random_seed = 1,metric = 'euclidean'):
        self.n = n
        self.random_seed = random_seed
        self.metric = metric

    def fit(self,x):
        '''实现步骤:
        1. 生成n个随机点作为类中心
        2. 将离根据中心点距离远近分类
        3. 重新计算每一类的均值中心
        4. 重复步骤23，直到收敛
        '''
        np.random.seed(self.random_seed)
        x = np.array(x)  # 确保可以利用shape属性
        dimension = x.shape[1] #数据维度
        #1. 先成n个随机的点,每个点应该是[与数据维度相同]
        self.inertia_ = np.random.choice(x.reshape(-1),size=(self.n,dimension) ,replace=False)
      
        # 递归的更新inertia_
        i = 0
        while True:
            #2. 根据距离中心点距离进行分类,
            label = self.clsfy(self.inertia_ , x)
            #3. 更新中心点
            inertia_= self.update_center(label , x)
            delta = np.sum((self.inertia_ - inertia_)) #记录下更新点
            self.inertia_ = inertia_  #更新mean点

            i += 1
            print(f"第{i}次更新均值点")

            ##当目标函数不再更新就停止
            if delta == 0 : 
                break
        return label

    def update_center(self,label,x):
        '''
        label:对应的标签
        x:所有点的坐标
        ----------------------------------------------------------------
        return:center 

        '''
        label = np.array(label).reshape((-1,1)) #转成array
        x = pd.DataFrame(x) #转换成dataFrame 是为了用groupby
        x['lable'] = label  #添加label进df
        center = np.array( x.groupby('lable').mean()) #求得每个lable下的平均

        return center


    def clsfy(self, inertia_ , x): 
        '''
        inertia:所有中心点的坐标,
        x : 数据 eg m*n矩阵 
        ---------------------------------------------------------------
        return: 所有数据的标签 m向量
        '''
        lable = [ np.argmin(cdist([i],inertia_ , metric = self.metric)) for i in x ] ##利用cdist函数可以计算距离，返回最近距离对应的下标即为标签
        return lable