spark python
伙伴几时见
致力于成为一名数据科学家
展开
-
pyspark特征工程常用方法(一)
本文记录特征工程中常用的五种方法:MinMaxScaler,Normalization,OneHotEncoding,PCA以及QuantileDiscretizer 用于分箱原有数据集如下图:MinMaxScalerfrom pyspark.ml.feature import MinMaxScaler首先将c2列转换为vector的形式vecAssembler = VectorAs...转载 2019-11-06 11:18:52 · 1007 阅读 · 0 评论 -
pyspark在windows加载数据集训练模型出现 以下错误 Connection reset by peer: socket write error
As a workaround you might try the following change to python/pyspark/worker.pyAdd the following 2 lines to the end of the process function defined inside the main functionfor obj in iterator: ...翻译 2019-05-27 13:53:28 · 726 阅读 · 2 评论 -
Windows10下最新的JAVA安装和环境变量详细配置
Java是一种简单、安全、容易使用、面向对象、可移植、高性能、多线程的语言。是由Sun公司(已被甲骨文收购)开发的一种应用于分布式网络环境的程序设计语言,同时拥有跨平台的特性和支持在多种操作系统平台上运行,可以实现“一处编译,处处运行”的强大功能。工具/原料OS 名称:Microsoft Windows 10 专业版OS 版本:10.0.15063 Build 15063JAVA安装包:jdk-8...转载 2018-04-09 17:23:27 · 519 阅读 · 1 评论 -
Win7 pySpark安装
目录(?)[+]序安装pyCharm wordCount示例pySpark学习地址1.序由于笔者目前用Python比较多,所以想安装下pySpark,并且在pyCharm中调用。(1)jdk-8u91-windows-x64.exe (2)spark-1.3.0-bin-hadoop2.4.tgz2.安装(1)jdk默认安装 (2)spa转载 2017-01-03 14:22:25 · 648 阅读 · 0 评论 -
Learning Spark (Python版) 学习笔记(二)----键值对、数据读取与保存、共享特性
本来应该上周更新的,结果碰上五一,懒癌发作,就推迟了 = =。以后还是要按时完成任务。废话不多说,第四章-第六章主要讲了三个内容:键值对、数据读取与保存与Spark的两个共享特性(累加器和广播变量)。键值对(PaiRDD)1.创建1 #在Python中使用第一个单词作为键创建一个pairRDD,使用map()函数2 pairs = lines.map(lambda x:(转载 2016-10-17 11:37:42 · 530 阅读 · 0 评论 -
集群上如何跑pyspark程序--Running Spark Python Applications
Running Spark Python ApplicationsAccessing Spark with Java and Scala offers many advantages: platform independence by running inside the JVM, self-contained packaging of code and its dependenc翻译 2016-09-28 10:48:25 · 4313 阅读 · 0 评论 -
Spark与Pandas中DataFrame的详细对比
PandasSpark工作方式单机single machine tool,没有并行机制parallelism不支持Hadoop,处理大量数据有瓶颈分布式并行计算框架,内建并行机制parallelism,所有的数据和操作自动并行分布在各个集群结点上。以处理in-memory数据的方式处理distributed数据。支持Hadoop,能处理大量数据延迟机制转载 2016-10-24 00:19:42 · 415 阅读 · 0 评论 -
pyspark 如何删除hdfs文件
问题的背景:我想在每次跑集群的时候,先删除指定路径下之前hdfs跑的数据文件,但是spark又没有提供这样一个可以调用函数。 解决办法:你可以通过调用subprocess.call 执行任意的Linux Shell命令 或者 sh library下面这个方法已经解决我的需求。import subprocesssome_path = ...subprocess.cal翻译 2016-09-27 16:15:32 · 5168 阅读 · 0 评论 -
Learning Spark (Python版) 学习笔记(三)----工作原理、调优与Spark SQL
周末的任务是更新Learning Spark系列第三篇,以为自己写不完了,但为了改正拖延症,还是得完成给自己定的任务啊 = =。这三章主要讲Spark的运行过程(本地+集群),性能调优以及Spark SQL相关的知识,如果对Spark不熟的同学可以先看看之前总结的两篇文章: 【原】Learning Spark (Python版) 学习笔记(一)----RDD 基本概念与命令 【转载 2016-10-11 14:50:37 · 975 阅读 · 0 评论 -
关于Spark的Broadcast解析
首先,推荐下大神(anzhsoft)的文章,http://blog.csdn.net/column/details/spark.html仅作为大神未未提到的细枝末节,进行补充。编写文章格式,亦是参考大神博文样式“照虎画猫”Broadcast(广播)是相对较为常用方法功能,通常使用方式,包括共享配置文件,map数据集,树形数据结构等,为能够更好更快速为TASK转载 2016-10-11 14:47:16 · 593 阅读 · 0 评论 -
Win7 pySpark安装
版权声明:如需转载,请注明出处http://blog.csdn.net/a819825294目录(?)[+]序安装pyCharm wordCount示例pySpark学习地址1.序由于笔者目前用Python比较多,所以想安装下pySpark,并且在pyCharm中调用。(1)jdk-8u91-windows-x64.exe (2)sp转载 2016-09-07 16:02:20 · 473 阅读 · 0 评论 -
java.net.URISyntaxException: Relative path in absolute URI
I was able to do some digging around in the latest Spark documentation, and I notice they have a new configuration setting that I hadn't noticed before:spark.sql.warehouse.dir原创 2016-09-19 10:37:29 · 3856 阅读 · 0 评论 -
Exception: Python in worker has different version 2.7 than that in driver 3.5, PySpark cannot run wi
总而言之,一句话,设置环境变量:PYSPARK_PYTHON = /home/piting/ENV/anaconda3/bin/pythonos.environ["PYSPARK_PYTHON"] = PYSPARK_PYTHON有时如果你使用的是虚拟环境或者anaconda,不能直接设置export PYSPARK_PYTHON=python3,这样可能直接指向的是系统全局的设置原创 2016-09-14 15:01:51 · 5579 阅读 · 0 评论 -
Spark——SparkContext简单分析
本篇文章就要根据源码分析SparkContext所做的一些事情,用过Spark的开发者都知道SparkContext是编写Spark程序用到的第一个类,足以说明SparkContext的重要性;这里先摘抄SparkContext源码注释来 简单介绍介绍SparkContext,注释的第一句话就是说SparkContext为Spark的主要入口点,简明扼要,如把Spark集群当作服务端那Sp转载 2016-09-13 21:44:14 · 537 阅读 · 0 评论 -
Spark-Python基础操作
仅以使用为主,不讲求理解原理参考:http://www.csdn.net/article/2015-04-24/28245521. 运行方式1)spark主目录下bin/spark-submit test.py2)bin/pyspark打开Python交互命令行2. 初始化conf=SparkConf().setAppName(appName).setMas转载 2016-09-13 11:44:42 · 425 阅读 · 0 评论