kmeans歌词聚类_python使用k-means实现歌词分析-CSDN博客

本文链接：https://blog.csdn.net/qq_47180202/article/details/130461844

文章介绍了如何使用Python的sklearn库对歌词进行KMeans聚类，主要步骤包括引入必要的库如numpy、pandas和sklearn，读取数据，使用TfidfVectorizer进行文本向量化，然后应用KMeans进行聚类，最后将聚类标签映射为具体的音乐类型。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

sklearn实现kmeans歌词聚类

一、使用工具包
二、使用步骤

一、使用工具包

numpy、pandas、sklearn

二、使用步骤

1.引入库

代码如下（示例）：

import pandas as pd
from sklearn.feature_extraction.text import TfidfVectorizer
from sklearn.cluster import KMeans
import numpy as np

2.读入数据

代码如下（示例）：

data = pd.read_csv("output.csv",encoding="utf-8")
data

数据处理部分已省略

3.文本向量化

代码如下（示例）：

vectorizer = TfidfVectorizer()
X = vectorizer.fit_transform(music)

4.kmeans聚类

代码如下（示例）：

kmeans = KMeans(n_clusters=5)
kmeans.fit(X)
names = data['title']
pred = kmeans.labels_
label_map = {0: '经典老歌', 1: '流行', 2: '伤感情歌',  3: '网络热歌', 4: '民谣'}

5.完整代码

代码如下（示例）：

def pred(dataX):
    data = pd.read_csv("output.csv",encoding="utf-8")
    music = data['text']
    music = music.apply(remove)
    vectorizer = TfidfVectorizer()
    X = vectorizer.fit_transform(music)
    kmeans = KMeans(n_clusters=5)
    kmeans.fit(X)
    names = data['title']
    label_map = {0: '经典老歌', 1: '流行', 2: '伤感情歌',  3: '网络热歌', 4: '民谣'}
    dataX = dataX.replace("\n","")
    dataX = vectorizer.transform([dataX])
#     return kmeans.predict(dataX)
    return label_map[kmeans.predict(dataX)[0]]