spark
胖大海瘦西湖
乐观,积极进取
展开
-
ValueError: Cannot run multiple SparkContexts at once; existing SparkContext ...
将代码写成如下形式:from pyspark import SparkContextsc.stop() #停止以前的SparkContext,要不然下面创建工作会失败sc=SparkContext('local','pyspark')'''your code'''sc.stop() #最好是再停止一下本次的原创 2016-05-28 11:34:04 · 3506 阅读 · 0 评论 -
pyspark ArrtibuteError: 'builtin_function_or_method' object has no attribute '__code__'
在使用spark1.5.0时,出现这个问题:ArrtibuteError: 'builtin_function_or_method' object has no attribute '__code__'解决办法,换用高版本的spark,spark1.6.0也可以与hadoop2.6.0搭配使用。原创 2016-05-28 14:53:43 · 3281 阅读 · 0 评论 -
在window上运行spark1.6.0
1、首先在官网上下载:spark-1.6.0-bin-hadoop2.6.tgz2、解压后,放到D盘下,并改名为spark-1.6.0,将D:\spark-1.6.0\bin加入到环境变量中,在终端中输入:pyspark,能打开交互界面,但是提示:ERROR util.Shell: Failed to locate the winutils binary in the hadoop bin原创 2016-05-29 15:34:17 · 1735 阅读 · 2 评论 -
hadoop2.6.0伪分布式+spark1.6.0配置记录
1、hdfs-site.xml文件: dfs.name.dir /spark/hadoop-2.6.0/tmp/dfs/name #只需要手动创建/spark/hadoop-2.6.0/tmp目录就好 dfs.data.dir /spark/hadoop-2.6.0/tmp/dfs/data #只需要原创 2016-06-01 22:09:46 · 1020 阅读 · 0 评论 -
pyspark实现Apriori算法、循环迭代、并行处理
from pyspark import SparkContextmyDat=[ [ 1, 3, 4,5 ], [ 2, 3, 5 ], [ 1, 2, 3,4, 5 ], [ 2,3,4, 5 ] ]sc = SparkContext( 'local', 'pyspark')myDat=sc.parallelize(myDat) #得到输入数据RDD #myDat.collect(): [原创 2016-06-05 20:40:19 · 9629 阅读 · 0 评论 -
spark scala Apriori
val mydata = Array(Array(1,3,4,5),Array(2,3,5),Array(1,2,3,4,5),Array(2,3,4,5))val pamydata = sc.parallelize(mydata)val C1 = pamydata.flatMap(_.toSet).distinct().collect().map(Set(_))val D = mydata原创 2016-08-18 10:36:58 · 1922 阅读 · 0 评论 -
pyspark+nltk处理文本数据
环境条件:hadoop2.6.0,spark1.6.0,python2.7,下载代码和数据代码如下:from pyspark import SparkContextsc=SparkContext('local','pyspark') data=sc.textFile("hdfs:/user/hadoop/test.txt")import nltkfrom nltk.corpus i原创 2016-06-03 17:20:28 · 2679 阅读 · 0 评论 -
spark mllib Matrices CSC
1、关于CSC的介绍,请看这篇博客:SciPy教程 - 稀疏矩阵库scipy.sparse2、先看一下Matrices.sparse的声明:def sparse(numRows: Int, numCols: Int, colPtrs: Array[Int], rowIndices: Array[Int], values: Array[Double]): Matrix Creates a原创 2016-09-10 09:14:18 · 1224 阅读 · 0 评论