聚类

最新推荐文章于 2022-03-02 17:21:56 发布

bus_lupe

最新推荐文章于 2022-03-02 17:21:56 发布

阅读量293

点赞数

分类专栏：数据挖掘

本文链接：https://blog.csdn.net/bus_lupe/article/details/102711792

版权

数据挖掘专栏收录该内容

14 篇文章 0 订阅

订阅专栏

聚类概述

聚类常见算法

划分法（分裂法） kmeans
层级分析法
密度分析法

聚类三发

kmeans算法概述

随机选择k个点作为聚类中心
计算各个点到这k个点的距离
将对应的点聚到与他最近的这个聚类中心
重新计算聚类中心
比较当前聚类中心与前一次聚类中心，如果是同一个点，得到聚类结果，若为不同的点，则重复2-5

kmeans算法实战

# kmeans算法
# 通过程序实现录取学生的聚类
import pandas as pd
import numpy
import matplotlib.pylab as pyl
import os
from sklearn.cluster import Birch
from sklearn.cluster import KMeans

BASE_DIR = os.path.dirname(os.path.abspath(__file__))
fname = os.path.join(BASE_DIR, 'data', 'luqu2.csv')
df = pd.read_csv(fname)
data = df.iloc[:,1:4]
x = data.values
# n_clusters分类，n_jobs指定线程数，max_iter最大循环数
kms = KMeans(n_clusters=2, n_jobs=3, max_iter=500)
# 聚类
y = kms.fit_predict(x)
# print(y)
# 可视化
# x学生序号，y类别
x1 = numpy.arange(0, len(y))
pyl.plot(x1, y, 'o')
pyl.show()
# 通过程序实现商品的聚类

import pandas as pd
import numpy
import matplotlib.pylab as pyl
import pymysql

from sklearn.cluster import Birch
from sklearn.cluster import KMeans
db = pymysql.connect(host='127.0.0.1', user='root', passwd='123456', db='taobao')
sql = 'select price, comment from taob limit 300;'
df = pd.read_sql(sql, con=db)
x = df.values

kms = KMeans(n_clusters=3, n_jobs=3, max_iter=500)
y = kms.fit_predict(x)
print(y)

for i in range(0, len(y)):
  x1 = df.iloc[i:i+1,0:1].values # 价格
  y1 = df.iloc[i:i+1, 1:2].values # 评论
  if y[i] == 0:
    pyl.plot(x1, y1, '*r')
  elif y[i] == 1:
    pyl.plot(x1, y1, 'sy')
  else:  
    pyl.plot(x1, y1, 'pk')
pyl.show()