pyspark
Python小萝卜
这个作者很懒,什么都没留下…
展开
-
pyspark:连接spark集群Windows环境搭建
软件1、anaconda(python3.6)2、spark-2.4.3-bin-hadoop2.7(spark版本要和集群上的一样)3、JDK1.8python环境配置pip install pyspark这里如果遇到安装超时的情况采用以下命令pip --default-timeout=100 installpyspark或pip --default-ti...原创 2019-05-23 13:52:38 · 8376 阅读 · 4 评论 -
pyspark:导入第三方包
集群上的python环境通常没有任务计算所需要的包,pyspark中的SparkContext提供pyFiles参数供我们导入第三包,这里的包可以是我们自己写的py文件,也可以是.whl文件,比如测试中的并行计算需要用到以下三个包: 将三个包直接打包压缩成package.zip,记住一定要是zip格式测试代码from pyspark import...原创 2019-05-23 14:43:47 · 10467 阅读 · 0 评论 -
pyspark:RDD和DataFrame
作为数据挖掘工程师,以后必不可免要用到并行计算,pyspark是python操作spark的API,本人因此入了坑。1 pyspark的安装 见我另一篇博客:https://blog.csdn.net/qq_23860475/article/details/904761972 spark概述 Spark 允许用户读取、转换和 聚合数据,可以轻松...原创 2019-05-31 16:34:43 · 7435 阅读 · 0 评论 -
pyspark:ML和MLlib
Spark有两个用于机器学习的库,分别是ML和MLlib,可以把实际的机器学习以简单、可伸缩并且无缝的方式与Spark整合起来。Spark中ML和MLlib的主要区别和联系如下:(1)目前常用的机器学习功能2个库都能满足需求;(2)spark官方推荐使用ML, 因为在spark3.0之后,将会废弃MLlib,全面的基于ML。因为ml操作的对象是DataFrame,操作起来会比...原创 2019-05-31 19:04:15 · 3911 阅读 · 0 评论 -
pyspark:FPgrowth
原理https://blog.csdn.net/sunbow0/article/details/45602415https://www.cnblogs.com/haozhengfei/p/c9f211ee76528cffc4b6d741a55ac243.html代码from pyspark import SparkConffrom pyspark.sql import Spar...原创 2019-06-03 11:02:08 · 4193 阅读 · 12 评论 -
pyspark:随机森林
废话不多说,直接上代码:from pyspark import SparkConffrom pyspark.sql import SparkSessionfrom pyspark.ml.linalg import Vectorsfrom pyspark.ml.feature import StringIndexerfrom pyspark.ml.classification impo...原创 2019-06-04 11:47:08 · 4381 阅读 · 1 评论 -
pyspark:GBDT
from pyspark import SparkConffrom pyspark.sql import SparkSessionfrom pyspark.ml.linalg import Vectorsfrom pyspark.ml.feature import StringIndexerfrom pyspark.ml.classification import GBTClassifi...原创 2019-06-04 13:46:48 · 3058 阅读 · 0 评论 -
pyspark:k均值
from pyspark import SparkConffrom pyspark.sql import SparkSessionfrom pyspark.ml.linalg import Vectorsfrom pyspark.ml.clustering import KMeansimport pandas as pdif __name__ == "__main__": a...原创 2019-06-04 14:48:24 · 856 阅读 · 0 评论