· 什么是聚类?
在事先未知数据分类的情况下,通过聚类分析可以将数据聚合成几个不同群体。
#这里聚类不需要对数据进行训练,属于无监督学习的一种。
· K-means聚类
属于聚类算法较为便捷、常用的一种。
其特点在于需要提前手动指定分类数目,确定K个数据点,之后数据集中的数据会根据距离远近抱团聚合。
· K-means聚类算法步骤
(手写笔坏了,重回纸质时代)
· 使用场景
现有大量数据,希望对数据进行分类聚合,得到K个不同特征的数据集。
#在数据分析中,聚类是后续做不同群组偏好分析的基础。
· 代码实现
使用python实现。
import numpy as np
import pandas as pd
from sklearn.feature_extraction.text import TfidfVectorizer # 基于TF-IDF的词频转向量库
from sklearn.cluster import KMeans
import jieba.posseg as pseg
def jieba_cut(comment):