聚类分析 MySQL_8.最佳电影聚类分析

本文通过对IMDb上100部最佳电影的简介进行聚类分析,探讨了如何利用TF-IDF特征进行预处理。使用k-means算法进行聚类,通过MDS可视化结果,展示了电影按主题分组的情况。同时,介绍了无监督学习的近邻传播(Affinity Propagation, AP)算法,该算法无需预先设定聚类数量,通过数据点间的消息传递寻找样本代表。文章深入浅出地解释了两种聚类算法的原理和应用。" 126894833,14532474,Python实现语音对话机器人,"['人工智能', 'Python开发', '语音技术', '自然语言处理', '对话系统']
摘要由CSDN通过智能技术生成

8.最佳电影聚类分析

将使用电影简介作为原始数据,将总共 100 部流行电影进行聚类分析。IMDb 也称为互联网电影数据库(www.imdb.com),是一个在线的数据库,它提供有关电影、电子游戏和电视节目的大量详细信息。它聚集了电影和电视节目的评论以及简介,并有几个精选影片清单。原始数据地址 https://www.imdb.com/list/ls055592025/ 上获取名为 “100部最佳影片(中级清单),可在 https://github.com/brandomr/document_cluster 处进行下载。

解析并清洗了数据,并作为原始数据中缺少简介的几部电影添加了影片介绍。这些简介和电影描述来自维基百科。数据解析完成后,将它们存储在数据框中,并将其保存至 movie_data.csv 文件中:

将在聚类分析中加载并使用该文件中的数据,首先,需要加载并查看电影数据的内容,如下代码所示:

结果:

可以看到以及有了电影标题和响应的内容简介,将其加载到数据框中,然后存储在变量了。前面的实处也给出了一个电影样本及其部分摘要。核心思路是使用这些电影简介作为原始输入来聚类电影并完成分组。将从这些简介中提取特征,并使用无监督的学习算法将它们进行聚类。电影标题则是用于表征数据,当想要可视化并展示聚类及其统计信息时,这些电影标题将会很有用。聚类算法的数据输入是从电影简介中提取的特征。在介绍每个聚类算法之前,将执行前面类似的模范化和特征提取过程:

如出现如下错误:

请修改 normalization.py 文件内容为:

结果:

在规范化之后的文本中保留了文本表示,并提取了基于 TF-IDF 的一元分词

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值