我知道Kmeans不适用于分类数据,但我们在spark 1.4中没有太多选项可用于聚类分类数据 . 无论上述问题如何 . 我在下面的代码中遇到错误 . 我从hive读取我的表,在管道中使用onehotencoder,然后将代码发送到Kmeans .
我在运行此代码时遇到错误 . 错误是否可以输入Kmeans的数据类型? doen是否期待numpay Array数据?如果是这样我如何将索引数据传输到numpy数组!?!?所有评论都得到了批准,感谢您的帮助!
我得到的错误:Traceback(最近一次调用最后一次):文件“/usr/hdp/2.3.2.0-2950/spark/python/lib/pyspark.zip/pyspark /daemon.py”,第157行,在manager文件中“/usr/hdp/2.3.2.0-2950/spark/python/lib/pyspark.zip/pyspark/daemon.py”,第61行,在工作文件“/usr/hdp/2.3.2.0-2950/spark/python /lib/pyspark.zip/pyspark/worker.py“,第136行,在main中如果read_int(infile)== SpecialLengths.END_OF_STREAM:文件”/usr/hdp/2.3.2.0-2950/spark/python/lib/pyspark .zip / pyspark / serializers.py“,第544行,在read_int中引发EOFError EOFError文件”“,第1行Traceback(最近一次调用最后一次):
我的代码:
#aline will be passed in f