PySpark机器学习(2)——GBDT

本文主要在PySpark环境中实现GBDT算法,实现代码如下所示:%pyspark from pyspark.ml.linalg import Vectors from pyspark.ml.classification import GBTClassifier from pyspark.ml....

2018-04-25 16:01:49

阅读数 1213

评论数 0

PySpark机器学习(1)——随机森林

本文主要在PySpark环境中实现随机森林算法:%pyspark from pyspark.ml.linalg import Vectors from pyspark.ml.feature import StringIndexer from pyspark.ml.classification i...

2018-04-23 18:37:36

阅读数 1027

评论数 0

PySpark学习笔记(6)——数据处理

在正式建模之前,需要非常了解建模所要用到的数据,本文主要介绍一些常见的数据观测和处理方法。 1.数据观测 (1)统计数据表中每一列数据的缺失率 %pyspark #构造原始数据样例 df = spark.createDataFrame([ (1,175,72,28,'M',100...

2018-04-11 16:14:11

阅读数 1825

评论数 0

提示
确定要删除当前文章?
取消 删除
关闭
关闭