Spark之机器学习(Python版)(一)——聚类

最新推荐文章于 2021-02-04 22:39:50 发布

R3eE9y2OeFcU40

最新推荐文章于 2021-02-04 22:39:50 发布

阅读量528

点赞数

本文链接：https://blog.csdn.net/R3eE9y2OeFcU40/article/details/80308576

版权

感谢关注天善智能，走好数据之路↑↑↑

欢迎关注天善智能，我们是专注于商业智能BI，人工智能AI，大数据分析与挖掘领域的垂直社区，学习，问答、求职一站式搞定！

对商业智能BI、大数据分析挖掘、机器学习，python，R等数据领域感兴趣的同学加微信：tstoutiao，邀请你进入数据爱好者交流群，数据爱好者们都在这儿。

kmeans聚类相信大家都已经很熟悉了。在Python里我们用kmeans通常调用Sklearn包（当然自己写也很简单）。那么在Spark里能不能也直接使用sklean包呢？目前来说直接使用有点困难，不过我看到spark-packages里已经有了，但还没有发布。不过没关系，PySpark里有ml包，除了ml包，还可以使用MLlib，这个在后期会写，也很方便。

首先来看一下Spark自带的例子：

这个例子很简单，导入的数据是四个稠密向量(可以自己在二维向量里画一下)，设定了两个簇心，最后验证预测的结果是否正确，显示为True，证明预测正确。算法中具体的参数可以参考API中的说明。然而实际生产中我们的数据集不可能以这样的方式一条条写进去，一般是读取文件，关于怎么读取文件，可以具体看我的这篇博文。这里我们采用iris数据集（不要问我为什么又是iris数据集，因为真的太方便了）来给大家讲解一下。

我的数据集是csv格式的，而Spark又不能直接读取csv格式的数据，这里我们有两个方式，一是我提到的这篇博文里有写怎么读取csv文件，二是安装spark-csv包（在这里下载）,github地址在这里。按照步骤安装可以了。这里友情提示一下大家，github的安装方法是：

$SPARK_HOME/bin/spark-shell --packages com.databricks:spark-csv_2.11:1.4.0

　　如果报错了，可以把 --packages 换成 --jars，如果还是不行，在加一个 common-csv.jars包放到lib下面就可以了。我因为这个耽误了不少时间，不过具体问题也得具体分析。

　　安装好这个包以后，就可以读取数据了

　　读取数据以后，我们来看一下数据集：

　第二步：提取特征

　　我们在上一步导入的数据中label是String类型的，但在Spark中要变成数值型才能计算，不然就会报错。可以利用StringIndexer功能将字符串转化为数值型

　　targetlabel这一列就是Species转化成数值型的结果

　最后一步：模型训练和验证

　　到这一步就结束了。总结一下，用pyspark做机器学习时，数据格式要转成需要的格式，不然很容易出错。

老师介绍：胡晓曼老师（Charlotte），高级算法工程师，博客专家；

擅长用通俗易懂的方式讲解深度学习和机器学习算法，熟悉Tensorflow，PaddlePaddle等深度学习框架，负责过多个机器学习落地项目，如垃圾评论自动过滤，用户分级精准营销，分布式深度学习平台搭建等，都取了的不错的效果。

出处：https://www.hellobi.com/u/CharlotteDataMining/articles

三个月教你从零入门人工智能！| 深度学习精华实践课程

https://edu.hellobi.com/course/268

R3eE9y2OeFcU40

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
1
评论
Spark之机器学习(Python版)(一)——聚类

感谢关注天善智能，走好数据之路↑↑↑欢迎关注天善智能，我们是专注于商业智能BI，人工智能AI，大数据分析与挖掘领域的垂直社区，学习，问答、求职一站式搞定！对商业智能BI、大数据分析挖掘、机器学习，python，R等数据领域感兴趣的同学加微信：tstoutiao，邀请你进入数据爱好者交流群，数据爱好者们都在这儿。kmeans聚类相信大家都已经很熟悉了。在Python里我们用...
复制链接

扫一扫