spark
KeepLearningBigData
Apache CarbonDarta PMC;
Apache Spark、Alluxio、KubeRay、SparkBWA等项目的contributor
展开
-
基于Docker快速在notebook上运行spark命令
【代码】基于Docker快速在notebook上运行spark命令。原创 2023-04-10 02:15:52 · 323 阅读 · 0 评论 -
基于Docker快速运行Spark
本文是基于macos电脑,docker 20.10.6。已经搭建好docker环境。3.运行Spark命令。原创 2023-04-10 02:07:28 · 647 阅读 · 1 评论 -
编译报错:PKIX path building failed: sun.security.provider.certpath.SunCertPathBuilder
【代码】编译报错:PKIX path building failed: sun.security.provider.certpath.SunCertPathBuilder。原创 2023-04-08 22:23:48 · 646 阅读 · 0 评论 -
Spark疑问3之spark 如何并行执行多个Job?
使用Spark的时候一般都是一个application的Job串行执行,如何并行执行? 如何提高spark对计算资源(CPU和内存等)的利用率? 1M数据10个action或者更多的action,如果串行效率低,如何并行执行job?-star原创 2016-05-19 18:41:19 · 10786 阅读 · 0 评论 -
Spark组件之GraphX学习14--TriangleCount实例和分析
更多代码请见:https://github.com/xubo245/SparkLearning1解释统计图中的Triangle,并返回源码:/* * Licensed to the Apache Software Foundation (ASF) under one or more * contributor license agreements. See the原创 2016-05-04 18:51:39 · 4181 阅读 · 1 评论 -
Spark组件之GraphX学习15--we-Google.txt大图分析
更多代码请见:https://github.com/xubo245/SparkLearning1解释统计边和点和最大度2.代码:/** * @author xubo * ref http://spark.apache.org/docs/1.5.2/graphx-programming-guide.html * http://snap.stanford.ed原创 2016-05-04 19:49:22 · 1574 阅读 · 1 评论 -
Spark组件之GraphX学习20--待学习部分
1.Spark examples中自带的三个例子实践LiveJournalPageRank.scalaAnalytics.scalaSynthBenchmark.scala在《深入理解Spark核心思想和源码分析》这本书的10.9有讲到LiveJournalPageRank.scala,里面的数据下载比较慢,而且本地跑会比较慢,故之后有时间学习2.《Spark高级数据分析》原创 2016-05-04 20:08:24 · 1085 阅读 · 0 评论 -
Spark组件之GraphX学习16--最短路径ShortestPaths
更多代码请见:https://github.com/xubo245/SparkLearning1解释求图中的最短路径,更多的请见参考【3】,这篇写的很详细2.代码:/** * @author xubo * ref http://spark.apache.org/docs/1.5.2/graphx-programming-guide.html * time原创 2016-05-04 20:38:48 · 7266 阅读 · 3 评论 -
spark学习10之将spark的AppName设置为自动获取当前类名
每次输入好麻烦,故可以: object CollaborativeFilteringSpark { val conf = new SparkConf().setMaster("local").setAppName(this.getClass().getSimpleName().filter(!_.equals('$'))) // println(this.getClass().getSim原创 2016-05-16 20:58:18 · 10233 阅读 · 2 评论 -
Spark组件之GraphX学习10--PageRank学习和使用(From examples)
更多代码请见:https://github.com/xubo245/SparkLearning1解释原理在参考【3】中讲的很详细,包括MapReduce情况下的。源码: /** * Run a dynamic version of PageRank returning a graph with vertex attributes containing the原创 2016-05-04 16:29:17 · 3190 阅读 · 0 评论 -
Spark组件之GraphX学习12--GraphX常见操作汇总SimpleGraphX
更多代码请见:https://github.com/xubo245/SparkLearning1解释GraphX常见操作汇总,包括建立图,查询最大度,map和join操作等2.代码:/* * Licensed to the Apache Software Foundation (ASF) under one or more * contributor l原创 2016-05-04 16:56:11 · 1365 阅读 · 3 评论 -
Spark组件之GraphX学习13--ConnectedComponents操作
更多代码请见:https://github.com/xubo245/SparkLearning1解释取联通部分源码:object ConnectedComponents { /** * Compute the connected component membership of each vertex and return a graph with th原创 2016-05-04 17:32:51 · 5701 阅读 · 0 评论 -
Spark组件之GraphX学习11--PageRank例子(PageRankAboutBerkeleyWiki)
更多代码请见:https://github.com/xubo245/SparkLearning1解释使用PageRank来对wiki中有关berkeley的链接进行计算,取top(10)2.代码:/** * @author xubo * ref http://spark.apache.org/docs/1.5.2/graphx-programming-gui原创 2016-05-04 16:44:54 · 2807 阅读 · 0 评论 -
Spark组件之GraphX学习9--使用pregel函数求单源最短路径
更多代码请见:https://github.com/xubo245/SparkLearning1解释使用pregel函数求单源最短路径GraphX中的单源点最短路径例子,使用的是类Pregel的方式。核心部分是三个函数:1.节点处理消息的函数 vprog: (VertexId, VD, A) => VD (节点id,节点属性,消息) => 节点属性2.原创 2016-05-04 15:03:57 · 2844 阅读 · 3 评论 -
Spark组件之GraphX学习8--邻居集合
更多代码请见:https://github.com/xubo245/SparkLearning1解释收集每个顶点的邻居顶点2.代码:/** * @author xubo * ref http://spark.apache.org/docs/1.5.2/graphx-programming-guide.html * time 20160503 */pa原创 2016-05-03 22:28:48 · 2820 阅读 · 1 评论 -
Spark组件之GraphX学习8--随机图生成和TopK最大入度
更多代码请见:https://github.com/xubo245/SparkLearning1.解释前一篇为最大入度,但是有时候需要求topK,这篇博文求的TopK的入度,出度和度的求法类似2.代码:/** * @author xubo * ref http://spark.apache.org/docs/1.5.2/graphx-programming-原创 2016-05-03 22:18:47 · 1625 阅读 · 0 评论 -
Spark组件之GraphX学习7--随机图生成和reduce最大或最小出度/入度/度
更多代码请见:https://github.com/xubo245/SparkLearning1解释通过自定义函数reduce最大或最小出度/入度/度2.代码:/** * @author xubo * ref http://spark.apache.org/docs/1.5.2/graphx-programming-guide.html * tim原创 2016-05-03 21:12:48 · 1738 阅读 · 0 评论 -
Spark组件之GraphX学习6--随机图生成和出度入度等信息显示
更多代码请见:https://github.com/xubo245/SparkLearning1解释简单不详述2.代码:/** * @author xubo * ref http://spark.apache.org/docs/1.5.2/graphx-programming-guide.html * time 20160503 */package原创 2016-05-03 21:00:11 · 2079 阅读 · 0 评论 -
spark学习11之在idea中将eclipse导入的java project改成maven project
方法: 项目上右键 Add Framework Support,选择maven参考: 【1】 http://bbs.csdn.net/topics/390764673原创 2016-05-16 21:38:14 · 843 阅读 · 0 评论 -
Spark入门学习记录之SparkLearning
为了更好的学习spark,也为了记录自己学习过程中的遇到的各种问题,方便以后查询,故谢了相关博客,也公开了代码和数据,代码基本都可以本地运行。 总目录: SparkLearning博客:http://blog.csdn.net/bob601450868/article/category/5730447 SparkLearning代码和数据:https://github.com/xubo245/原创 2016-05-17 22:34:00 · 4280 阅读 · 1 评论 -
Spark组件之SparkR学习2--使用spark-submit向集群提交R代码文件dataframe.R
环境:spark1.5.2,R-3.2.11.examples1 dataframe.R 1.1 文件来源:参考【1】./bin/spark-submit examples/src/main/r/dataframe.R中代码运行有问题:hadoop@Master:~/cloud/testByXubo/spark/R$ spark-submit dataframe.R原创 2016-04-20 12:32:27 · 3207 阅读 · 0 评论 -
Spark代码4之Spark 文件API及其对搜狗数据的操作
Spark代码4之Spark 文件API及其对搜狗数据的操作搜狗数据:http://www.sogou.com/labs/dl/q.html参考:大数据Spark企业级实战说明:书中的数据可能被sogou改变,两个序号之间是空格,所以需要修改代码:package LocalSpark/** * Created by xubo原创 2016-03-04 13:05:35 · 4610 阅读 · 0 评论 -
spark学习3之examples中的SparkPi
Spark examples之SparkPi环境:服务器:ubuntu spark 1.5.2编写环境:window eclipse可以直接在集群上跑,为了熟悉流程,先下载到window,然后打成jar包上传运行:1.下载SparkPi.scala:地址:/home/hadoop/cloud/spark-1.5.2/examples/src/main/s原创 2016-01-27 19:36:24 · 4483 阅读 · 0 评论 -
Spark代码1之RDDparallelizeSaveAsFile
Spark代码1之RDDparallelizeSaveAsFile主要功能:1.并行生成n个随机数并对其进行统计并排序,最后存到HDFS2.计算和存储两部分分别计时代码:package LocalSpark/** * Created by xubo on 2016/3/3. */import org.apache.spark._//import原创 2016-03-03 21:38:18 · 1512 阅读 · 0 评论 -
spark学习7之IDEA下搭建Spark本地编译环境并上传到集群运行
IDEA下搭建SPark本地编译环境并上传到集群运行环境:本地:window7 64 +idea15.0.4+scala 2.10.5集群:ubuntu+spark1.5.21.安装scala2.10.5,需要配置环境变量,还需要安装jdk1.7,同样要环境变量,很多教材,不细讲2.本地安装idea15.0.4:https://www.jetbrains.c原创 2016-03-03 17:26:02 · 3301 阅读 · 0 评论 -
Spark学习15之用Maven编译时报 java.lang.OutOfMemoryError: PermGen space异常
使用:mvn clean package -DskipTests对spark进行编译时,会报错:java.lang.OutOfMemoryError: PermGen space解决办法:1.window下:set MAVEN_OPTS=-Xmx2g -XX:MaxPermSize=512M -XX:Reserve dCodeCacheSize=512m 2.ubuntu下:export MA原创 2016-05-23 22:20:54 · 2095 阅读 · 0 评论 -
Spark2学习2之window下编译spark-2.0.0
更多代码请见:https://github.com/xubo245/SparkLearning Spark中组件Ml的学习 1.解释(1)基本配置: scala-2.11.8 java1.7 maven3.3.9(2) 下载:github(3) 设定jvm参数:export MAVEN_OPTS="-Xmx2g -XX:MaxPermSize=512M -XX:ReservedCode原创 2016-07-30 17:16:30 · 3724 阅读 · 3 评论 -
Spark学习17之使用IDEA对Spark 1.5.2进行本地编译和调试(成功)
1.需要安装: jdk1.7 scala2.10.4 maven 3.3..9 idea 15.042.下载spark1.5.2源码 https://github.com/apache/spark 进release3.编译安装:mvn clean package -DskipTests查看详细错误:mvn clean package -DskipTests -X遇到的问题 (1)ma原创 2016-05-24 11:24:19 · 7879 阅读 · 1 评论 -
Spark学习16之Spark 2.0.0-preview编译安装
1.下载: (1)gitgit clone https://github.com/apache/spark.git查看版本:git tag选择版本:git checkout Version(自己指定)(2) release: 下载:https://github.com/apache/spark/releases2.编译安装:export MAVEN_OPTS="-Xmx2g -XX:MaxPer原创 2016-05-23 23:04:59 · 1880 阅读 · 0 评论 -
spark学习14之使用maven快速切换本地调试的spark版本
更多代码请见:https://github.com/xubo245/SparkLearning1解释 有时候集群装了某个版本的spark,想再装一个版本,想简单点,可以选择本地使用idea中的maven。 本文主要是从spark1.5.2切换到spark1.6.12.代码:spark-1.5.2:<?xml version="1.0" encoding="UTF-8"?><project xm原创 2016-05-23 11:40:21 · 1565 阅读 · 0 评论 -
Spark组件之Spark Streaming学习6--如何调用Dstream里面的getOrCompute方法?
更多代码请见:https://github.com/xubo245/SparkLearning1解释 下图中有getOrCompute在 在Dstream中有对getOrCompute的定义,但是是 private[streaming] 的,所以需要在streaming包下才能调用 : private[streaming] final def getOrCompute(time: Time原创 2016-05-23 09:25:21 · 1138 阅读 · 0 评论 -
spark学习13之RDD的partitions数目获取
更多代码请见:https://github.com/xubo245/SparkLearning spark1.5.21解释 获取RDD的partitions数目和index信息 疑问:为什么纯文本的partitions数目与HDFS的block数目一样,但是.gz的压缩文件的partitions数目却为1?2.代码:sc.textFile("/xubo/GRCH38Sub/GRCH38L125原创 2016-05-22 16:07:24 · 9959 阅读 · 2 评论 -
Spark疑问4之Idea中project中的module如何将File路径设置为当前module路径而不是project路径?
Spark疑问4之Idea中project中的module如何将File路径设置为当前module路径而不是project路径? 使用maven又如何设置?原创 2016-05-19 18:43:50 · 2526 阅读 · 2 评论 -
spark学习12之利用keyBy对数据中其中两项进行排序
更多代码请见:https://github.com/xubo245/SparkLearning1解释 由于有时候数据的列数很多,不只是按一项作为key来排序,有时候需要对其中两项进行排序,spark的RDD提供了keyBy的方法。使用场景例子为: init: (ab,2,3) (ac,4,100) (bb,1,200) (ac,1,1) (bb,2,5)sort: (ab,2,3)原创 2016-05-19 16:41:41 · 6977 阅读 · 0 评论 -
Spark组件之GraphX学习5--随机图生成和消息发送aggregateMessages以及mapreduce操作(含源码分析)
更多代码请见:https://github.com/xubo245/SparkLearning0.主要:随机图生成消息发送aggregateMessages ,进行reducer计算最后还有个mapValues操作1解释(1)随机图生成GraphGenerators.logNormalGraph随机图生成方法源码:默认出度为4,标准偏差为1.3,并行原创 2016-05-03 20:48:44 · 3477 阅读 · 1 评论 -
Spark组件之GraphX学习4--Structural Operators:mask
更多代码请见:https://github.com/xubo245/SparkLearning1解释connectedComponents源码:返回连接成分的顶点值:包含顶点Id,属性没了 /** * Compute the connected component membership of each vertex and return a graph wi原创 2016-05-03 20:03:03 · 1576 阅读 · 0 评论 -
spark学习4之集群上直接用scalac编译.scala出现的MissingRequirementError问题(已解决)
报错代码:hadoop@Master:~/cloud/test/sh_spark_xubo/SparkPi$ scalac org/apache/spark/examples/SparkPi.scala error: scala.tools.nsc.MissingRequirementError: object scala.reflect.Manifest not found. at原创 2016-01-27 21:40:28 · 3050 阅读 · 3 评论 -
spark学习2之OutOfMemoryError错误的解决办法
spark之OutOfMemoryError错误的解决办法:xubo@xubo:~/cloud/spark-1.4.1$ spark-submit --master local examples/src/main/python/pi.py 1000Traceback (most recent call last): File "/home/xubo/cloud/spark-1.4.1/exam原创 2015-09-18 16:30:19 · 11570 阅读 · 0 评论 -
spark学习1之examples运行
spark的examples运行:spark1.4.11. spark-submit:hadoop@Master:~/cloud/spark-1.4.1$ spark-submit --master local examples/src/main/python/pi.py 10Pi is roughly 3.142524原创 2015-09-18 16:15:32 · 6656 阅读 · 1 评论 -
Spark代码2之Transformation:union,distinct,join
Spark代码2之Transformation:union,distinct,join代码:package LocalSpark/** * Created by xubo on 2016/3/3. */import org.apache.spark._import org.apache.spark.network.netty.SparkTransportConfob原创 2016-03-03 22:24:14 · 1521 阅读 · 0 评论