PySpark机器学习
飞鸟2010
这个作者很懒,什么都没留下…
展开
-
PySpark机器学习(1)——随机森林
本文主要在PySpark环境中实现随机森林算法:%pyspark from pyspark.ml.linalg import Vectors from pyspark.ml.feature import StringIndexer from pyspark.ml.classification import RandomForestClassifier from pyspark.sql impor...原创 2018-04-23 18:37:36 · 2398 阅读 · 0 评论 -
PySpark机器学习(2)——GBDT
本文主要在PySpark环境中实现GBDT算法,实现代码如下所示:%pyspark from pyspark.ml.linalg import Vectors from pyspark.ml.classification import GBTClassifier from pyspark.ml.feature import StringIndexer from numpy import allc...原创 2018-04-25 16:01:49 · 4014 阅读 · 0 评论 -
PySpark机器学习(3)——LR和SVM
本文主要在PySpark环境下实现LR和SVM算法,实现代码如下所示:1.LR实现代码:%pyspark from pyspark.sql import Row from pyspark.ml.linalg import Vectors from pyspark.ml.classification import LogisticRegression #1.训练 #1.1 读取数据 trainD...原创 2018-05-03 16:52:46 · 5053 阅读 · 3 评论 -
PySpark机器学习(4)——KMeans和GMM
本文主要在PySpark环境下实现经典的聚类算法KMeans(K均值)和GMM(高斯混合模型),实现代码如下所示:1.KMeans实现代码:%pyspark from pyspark.ml.clustering import KMeans from pyspark.ml.feature import StringIndexer from pyspark.ml.linalg import Vect...原创 2018-05-07 15:30:27 · 4131 阅读 · 2 评论