spark kmeans java_pyspark：kmeans的分类变量准备

最新推荐文章于 2021-05-08 16:43:41 发布

weixin_39853131

最新推荐文章于 2021-05-08 16:43:41 发布

阅读量188

点赞数

文章标签： spark kmeans java

本文链接：https://blog.csdn.net/weixin_39853131/article/details/114747687

版权

我知道Kmeans不适用于分类数据，但我们在spark 1.4中没有太多选项可用于聚类分类数据 . 无论上述问题如何 . 我在下面的代码中遇到错误 . 我从hive读取我的表，在管道中使用onehotencoder，然后将代码发送到Kmeans .

我在运行此代码时遇到错误 . 错误是否可以输入Kmeans的数据类型？ doen是否期待numpay Array数据？如果是这样我如何将索引数据传输到numpy数组！？！？所有评论都得到了批准，感谢您的帮助！

我得到的错误：Traceback(最近一次调用最后一次)：文件“/usr/hdp/2.3.2.0-2950/spark/python/lib/pyspark.zip/pyspark /daemon.py”，第157行，在manager文件中“/usr/hdp/2.3.2.0-2950/spark/python/lib/pyspark.zip/pyspark/daemon.py”，第61行，在工作文件“/usr/hdp/2.3.2.0-2950/spark/python /lib/pyspark.zip/pyspark/worker.py“，第136行，在main中如果read_int(infile)== SpecialLengths.END_OF_STREAM：文件”/usr/hdp/2.3.2.0-2950/spark/python/lib/pyspark .zip / pyspark / serializers.py“，第544行，在read_int中引发EOFError EOFError文件”“，第1行Traceback(最近一次调用最后一次)：

我的代码：

#aline will be passed in f

最低0.47元/天解锁文章

weixin_39853131

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
spark kmeans java_pyspark：kmeans的分类变量准备

我知道Kmeans不适用于分类数据，但我们在spark 1.4中没有太多选项可用于聚类分类数据 . 无论上述问题如何 . 我在下面的代码中遇到错误 . 我从hive读取我的表，在管道中使用onehotencoder，然后将代码发送到Kmeans .我在运行此代码时遇到错误 . 错误是否可以输入Kmeans的数据类型？ doen是否期待numpay Array数据？如果是这样我如何将索引数据传输到n...
复制链接

扫一扫