python中kmeans怎么导入数据集_Python:加载kmeans训练数据集并使用它来预测新数据...

该博客讨论了如何在Python中使用KMeans对大型数据集进行聚类,特别是当数据无法全部加载到内存中时。作者展示了如何部分加载数据,训练KMeans模型,保存模型,然后使用该模型预测新数据。在预测过程中遇到问题,数据没有正确聚类,可能是模型参数或数据划分的问题。
摘要由CSDN通过智能技术生成

我有大量的数据,我想运行一个kmean分类。数据集太大了,我无法将文件加载到内存中。在

我的想法是对数据集的某些部分(如训练数据集)运行分类,然后将calssification逐部分应用到数据集的其余部分。在import pandas as pd

import pickle

from sklearn.cluster import KMeans

frames = [pd.read_hdf(fin) for fin in ifiles]

data = pd.concat(frames, ignore_index=True, axis=0)

data.dropna(inplace=True)

k = 12

x = pd.concat(data['A'], data['B'], data['C'], axis=1, keys=['A','B','C'])

model = KMeans(n_clusters=k, random_state=0, n_jobs = -2)

model.fit(x)

pickle.dump(model, open(filename, 'wb'))

x看起来像这样:

^{pr2}$

模型如下所示:KMeans(algorithm='auto', copy_x=True, init='k-means++', max_iter=300,

n_clusters=12, n_init=10, n_jobs=-2, precompute_distances='auto',

  • 1
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值