python中kmeans怎么导入数据集_Python：加载kmeans训练数据集并使用它来预测新数据...

最新推荐文章于 2023-07-13 19:19:42 发布

weixin_39978257

最新推荐文章于 2023-07-13 19:19:42 发布

阅读量708

点赞数 1

文章标签： python中kmeans怎么导入数据集

该博客讨论了如何在Python中使用KMeans对大型数据集进行聚类，特别是当数据无法全部加载到内存中时。作者展示了如何部分加载数据，训练KMeans模型，保存模型，然后使用该模型预测新数据。在预测过程中遇到问题，数据没有正确聚类，可能是模型参数或数据划分的问题。

摘要由CSDN通过智能技术生成

我有大量的数据，我想运行一个kmean分类。数据集太大了，我无法将文件加载到内存中。在

我的想法是对数据集的某些部分（如训练数据集）运行分类，然后将calssification逐部分应用到数据集的其余部分。在import pandas as pd

import pickle

from sklearn.cluster import KMeans

frames = [pd.read_hdf(fin) for fin in ifiles]

data = pd.concat(frames, ignore_index=True, axis=0)

data.dropna(inplace=True)

k = 12

x = pd.concat(data['A'], data['B'], data['C'], axis=1, keys=['A','B','C'])

model = KMeans(n_clusters=k, random_state=0, n_jobs = -2)

model.fit(x)

pickle.dump(model, open(filename, 'wb'))

x看起来像这样：

^{pr2}$

模型如下所示：KMeans(algorithm='auto', copy_x=True, init='k-means++', max_iter=300,

n_clusters=12, n_init=10, n_jobs=-2, precompute_distances='auto',

最低0.47元/天解锁文章

weixin_39978257

关注

1
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
python中kmeans怎么导入数据集_Python：加载kmeans训练数据集并使用它来预测新数据...

我有大量的数据，我想运行一个kmean分类。数据集太大了，我无法将文件加载到内存中。在我的想法是对数据集的某些部分（如训练数据集）运行分类，然后将calssification逐部分应用到数据集的其余部分。在import pandas as pdimport picklefrom sklearn.cluster import KMeansframes = [pd.read_hdf(fin) for ...
复制链接

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。