使用K-means聚类算法进行数据处理(附代码)

· 什么是聚类?

事先未知数据分类的情况下,通过聚类分析可以将数据聚合成几个不同群体。

#这里聚类不需要对数据进行训练,属于无监督学习的一种。

· K-means聚类

属于聚类算法较为便捷、常用的一种。

其特点在于需要提前手动指定分类数目,确定K个数据点,之后数据集中的数据会根据距离远近抱团聚合。

· K-means聚类算法步骤

(手写笔坏了,重回纸质时代)

· 使用场景

现有大量数据,希望对数据进行分类聚合,得到K个不同特征的数据集。

#在数据分析中,聚类是后续做不同群组偏好分析的基础。

· 代码实现

使用python实现。

import numpy as np
import pandas as pd
from sklearn.feature_extraction.text import TfidfVectorizer  # 基于TF-IDF的词频转向量库
from sklearn.cluster import KMeans
import jieba.posseg as pseg

def jieba_cut(comment):
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值