spark
深度学习扛把子
这个作者很懒,什么都没留下…
展开
-
spark 部署方式
Local模式Local模式就是运行在一台计算机上的模式,通常就是用于在本机上练手和测试。它可以通过以下集中方式设置master。local: 所有计算都运行在一个线程当中,没有任何并行计算,通常我们在本机执行一些测试代码,或者练手,就用这种模式。local[K]: 指定使用几个线程来运行计算,比如local[4]就是运行4个worker线程。通常我们的cpu有几个core,就指定几个线程,最大化利用cpu的计算能力local[*]: 这种模式直接帮你按照cpu最多cores来设置线程数了。使用示转载 2021-09-02 16:15:02 · 196 阅读 · 0 评论 -
pyspark ml
基于RDD的API spark.mllib已进入维护模式。Spark ML是Spark MLlib的一种新的API,它有下面的优点:1.面向DataFrame,基于RDD进一步封装,拥有功能更多的API2.具有Pipeline功能,可以实现复杂的机器学习模型3.性能得到提升ML包提供了七种分类(Classification)模型以供选择,从最简单的逻辑回归到一些更复杂的模型,下面作简要的描述:LogisticRegression, 分类的基准模型。逻辑回归使用一个对数函数来计算属于特定类别的观察转载 2021-09-02 15:37:07 · 220 阅读 · 0 评论 -
spark ml包
ml包包括三个主要的抽象类:转换器(Transformer)、评估器(Estimator)和管道(Pipeline)转载 2021-09-02 15:23:20 · 637 阅读 · 0 评论 -
xgboost4j jar包下载
https://mvnrepository.com/artifact/ml.dmlc/xgboost4j原创 2021-08-31 17:25:16 · 540 阅读 · 0 评论 -
ImportError: cannot import name ‘JavaPredictionModel‘
采用pyspark2.4原创 2021-08-27 11:20:36 · 184 阅读 · 0 评论 -
pyspark机制
RDD弹性分布式数据集RDD 是 Spark 提供的最重要的抽象概念,它是一种有容错机制的特殊数据集合,可以分布在集群的结点上,以函数式操作集合的方式进行各种并行操作。通俗点来讲,可以将 RDD 理解为一个分布式对象集合,本质上是一个只读的分区记录集合。每个 RDD 可以分成多个分区,每个分区就是一个数据集片段。一个 RDD 的不同分区可以保存到集群中的不同结点上,从而可以在集群中的不同结点上进行并行计算。RDD 具有容错机制,并且只读不能修改,可以执行确定的转换操作创建新的 RDD。具体来讲,RDD转载 2021-08-18 10:48:07 · 155 阅读 · 0 评论