
spark
KeepLearningBigData
Apache CarbonDarta PMC;
Apache Spark、Alluxio、KubeRay、SparkBWA等项目的contributor
展开
-
基于Docker快速在notebook上运行spark命令
【代码】基于Docker快速在notebook上运行spark命令。原创 2023-04-10 02:15:52 · 421 阅读 · 0 评论 -
基于Docker快速运行Spark
本文是基于macos电脑,docker 20.10.6。已经搭建好docker环境。3.运行Spark命令。原创 2023-04-10 02:07:28 · 739 阅读 · 1 评论 -
编译报错:PKIX path building failed: sun.security.provider.certpath.SunCertPathBuilder
【代码】编译报错:PKIX path building failed: sun.security.provider.certpath.SunCertPathBuilder。原创 2023-04-08 22:23:48 · 753 阅读 · 0 评论 -
Spark2学习2之window下编译spark-2.0.0
更多代码请见:https://github.com/xubo245/SparkLearning Spark中组件Ml的学习 1.解释(1)基本配置: scala-2.11.8 java1.7 maven3.3.9(2) 下载:github(3) 设定jvm参数:export MAVEN_OPTS="-Xmx2g -XX:MaxPermSize=512M -XX:ReservedCode原创 2016-07-30 17:16:30 · 3758 阅读 · 3 评论 -
Spark学习17之使用IDEA对Spark 1.5.2进行本地编译和调试(成功)
1.需要安装: jdk1.7 scala2.10.4 maven 3.3..9 idea 15.042.下载spark1.5.2源码 https://github.com/apache/spark 进release3.编译安装:mvn clean package -DskipTests查看详细错误:mvn clean package -DskipTests -X遇到的问题 (1)ma原创 2016-05-24 11:24:19 · 8896 阅读 · 1 评论 -
Spark学习16之Spark 2.0.0-preview编译安装
1.下载: (1)gitgit clone https://github.com/apache/spark.git查看版本:git tag选择版本:git checkout Version(自己指定)(2) release: 下载:https://github.com/apache/spark/releases2.编译安装:export MAVEN_OPTS="-Xmx2g -XX:MaxPer原创 2016-05-23 23:04:59 · 1931 阅读 · 0 评论 -
Spark学习15之用Maven编译时报 java.lang.OutOfMemoryError: PermGen space异常
使用:mvn clean package -DskipTests对spark进行编译时,会报错:java.lang.OutOfMemoryError: PermGen space解决办法:1.window下:set MAVEN_OPTS=-Xmx2g -XX:MaxPermSize=512M -XX:Reserve dCodeCacheSize=512m 2.ubuntu下:export MA原创 2016-05-23 22:20:54 · 2145 阅读 · 0 评论 -
spark学习14之使用maven快速切换本地调试的spark版本
更多代码请见:https://github.com/xubo245/SparkLearning1解释 有时候集群装了某个版本的spark,想再装一个版本,想简单点,可以选择本地使用idea中的maven。 本文主要是从spark1.5.2切换到spark1.6.12.代码:spark-1.5.2:<?xml version="1.0" encoding="UTF-8"?><project xm原创 2016-05-23 11:40:21 · 1599 阅读 · 0 评论 -
Spark组件之Spark Streaming学习6--如何调用Dstream里面的getOrCompute方法?
更多代码请见:https://github.com/xubo245/SparkLearning1解释 下图中有getOrCompute在 在Dstream中有对getOrCompute的定义,但是是 private[streaming] 的,所以需要在streaming包下才能调用 : private[streaming] final def getOrCompute(time: Time原创 2016-05-23 09:25:21 · 1156 阅读 · 0 评论 -
spark学习13之RDD的partitions数目获取
更多代码请见:https://github.com/xubo245/SparkLearning spark1.5.21解释 获取RDD的partitions数目和index信息 疑问:为什么纯文本的partitions数目与HDFS的block数目一样,但是.gz的压缩文件的partitions数目却为1?2.代码:sc.textFile("/xubo/GRCH38Sub/GRCH38L125原创 2016-05-22 16:07:24 · 10006 阅读 · 2 评论 -
Spark疑问4之Idea中project中的module如何将File路径设置为当前module路径而不是project路径?
Spark疑问4之Idea中project中的module如何将File路径设置为当前module路径而不是project路径? 使用maven又如何设置?原创 2016-05-19 18:43:50 · 2578 阅读 · 2 评论 -
Spark疑问3之spark 如何并行执行多个Job?
使用Spark的时候一般都是一个application的Job串行执行,如何并行执行? 如何提高spark对计算资源(CPU和内存等)的利用率? 1M数据10个action或者更多的action,如果串行效率低,如何并行执行job?-star原创 2016-05-19 18:41:19 · 10841 阅读 · 0 评论 -
spark学习12之利用keyBy对数据中其中两项进行排序
更多代码请见:https://github.com/xubo245/SparkLearning1解释 由于有时候数据的列数很多,不只是按一项作为key来排序,有时候需要对其中两项进行排序,spark的RDD提供了keyBy的方法。使用场景例子为: init: (ab,2,3) (ac,4,100) (bb,1,200) (ac,1,1) (bb,2,5)sort: (ab,2,3)原创 2016-05-19 16:41:41 · 7074 阅读 · 0 评论 -
Spark入门学习记录之SparkLearning
为了更好的学习spark,也为了记录自己学习过程中的遇到的各种问题,方便以后查询,故谢了相关博客,也公开了代码和数据,代码基本都可以本地运行。 总目录: SparkLearning博客:http://blog.csdn.net/bob601450868/article/category/5730447 SparkLearning代码和数据:https://github.com/xubo245/原创 2016-05-17 22:34:00 · 4329 阅读 · 1 评论 -
spark学习11之在idea中将eclipse导入的java project改成maven project
方法: 项目上右键 Add Framework Support,选择maven参考: 【1】 http://bbs.csdn.net/topics/390764673原创 2016-05-16 21:38:14 · 870 阅读 · 0 评论 -
spark学习10之将spark的AppName设置为自动获取当前类名
每次输入好麻烦,故可以: object CollaborativeFilteringSpark { val conf = new SparkConf().setMaster("local").setAppName(this.getClass().getSimpleName().filter(!_.equals('$'))) // println(this.getClass().getSim原创 2016-05-16 20:58:18 · 10324 阅读 · 2 评论 -
spark学习9之在window下进行源码编译打包
1.配置基本环境:jdk1.7scala-2.10.4maven 3.3.9具体请看【2】和系列文章2.编译运行(1)下载:https://github.com/apache/spark(2)编译:D:\1win7\java\spark-1.5.2>set MAVEN_OPTS=-Xmx2g -XX:MaxPermSize=512M -XX:原创 2016-05-12 18:47:45 · 2399 阅读 · 0 评论 -
Spark组件之GraphX学习16--最短路径ShortestPaths
更多代码请见:https://github.com/xubo245/SparkLearning1解释求图中的最短路径,更多的请见参考【3】,这篇写的很详细2.代码:/** * @author xubo * ref http://spark.apache.org/docs/1.5.2/graphx-programming-guide.html * time原创 2016-05-04 20:38:48 · 7376 阅读 · 3 评论 -
Spark组件之GraphX学习20--待学习部分
1.Spark examples中自带的三个例子实践LiveJournalPageRank.scalaAnalytics.scalaSynthBenchmark.scala在《深入理解Spark核心思想和源码分析》这本书的10.9有讲到LiveJournalPageRank.scala,里面的数据下载比较慢,而且本地跑会比较慢,故之后有时间学习2.《Spark高级数据分析》原创 2016-05-04 20:08:24 · 1117 阅读 · 0 评论 -
Spark组件之GraphX学习15--we-Google.txt大图分析
更多代码请见:https://github.com/xubo245/SparkLearning1解释统计边和点和最大度2.代码:/** * @author xubo * ref http://spark.apache.org/docs/1.5.2/graphx-programming-guide.html * http://snap.stanford.ed原创 2016-05-04 19:49:22 · 1621 阅读 · 1 评论 -
Spark组件之GraphX学习14--TriangleCount实例和分析
更多代码请见:https://github.com/xubo245/SparkLearning1解释统计图中的Triangle,并返回源码:/* * Licensed to the Apache Software Foundation (ASF) under one or more * contributor license agreements. See the原创 2016-05-04 18:51:39 · 4278 阅读 · 1 评论 -
Spark组件之GraphX学习13--ConnectedComponents操作
更多代码请见:https://github.com/xubo245/SparkLearning1解释取联通部分源码:object ConnectedComponents { /** * Compute the connected component membership of each vertex and return a graph with th原创 2016-05-04 17:32:51 · 5770 阅读 · 0 评论 -
Spark组件之GraphX学习12--GraphX常见操作汇总SimpleGraphX
更多代码请见:https://github.com/xubo245/SparkLearning1解释GraphX常见操作汇总,包括建立图,查询最大度,map和join操作等2.代码:/* * Licensed to the Apache Software Foundation (ASF) under one or more * contributor l原创 2016-05-04 16:56:11 · 1407 阅读 · 3 评论 -
Spark组件之GraphX学习11--PageRank例子(PageRankAboutBerkeleyWiki)
更多代码请见:https://github.com/xubo245/SparkLearning1解释使用PageRank来对wiki中有关berkeley的链接进行计算,取top(10)2.代码:/** * @author xubo * ref http://spark.apache.org/docs/1.5.2/graphx-programming-gui原创 2016-05-04 16:44:54 · 2863 阅读 · 0 评论 -
Spark组件之GraphX学习10--PageRank学习和使用(From examples)
更多代码请见:https://github.com/xubo245/SparkLearning1解释原理在参考【3】中讲的很详细,包括MapReduce情况下的。源码: /** * Run a dynamic version of PageRank returning a graph with vertex attributes containing the原创 2016-05-04 16:29:17 · 3241 阅读 · 0 评论 -
Spark组件之GraphX学习9--使用pregel函数求单源最短路径
更多代码请见:https://github.com/xubo245/SparkLearning1解释使用pregel函数求单源最短路径GraphX中的单源点最短路径例子,使用的是类Pregel的方式。核心部分是三个函数:1.节点处理消息的函数 vprog: (VertexId, VD, A) => VD (节点id,节点属性,消息) => 节点属性2.原创 2016-05-04 15:03:57 · 2914 阅读 · 3 评论 -
Spark组件之GraphX学习8--邻居集合
更多代码请见:https://github.com/xubo245/SparkLearning1解释收集每个顶点的邻居顶点2.代码:/** * @author xubo * ref http://spark.apache.org/docs/1.5.2/graphx-programming-guide.html * time 20160503 */pa原创 2016-05-03 22:28:48 · 2883 阅读 · 1 评论 -
Spark组件之GraphX学习8--随机图生成和TopK最大入度
更多代码请见:https://github.com/xubo245/SparkLearning1.解释前一篇为最大入度,但是有时候需要求topK,这篇博文求的TopK的入度,出度和度的求法类似2.代码:/** * @author xubo * ref http://spark.apache.org/docs/1.5.2/graphx-programming-原创 2016-05-03 22:18:47 · 1663 阅读 · 0 评论 -
Spark组件之GraphX学习7--随机图生成和reduce最大或最小出度/入度/度
更多代码请见:https://github.com/xubo245/SparkLearning1解释通过自定义函数reduce最大或最小出度/入度/度2.代码:/** * @author xubo * ref http://spark.apache.org/docs/1.5.2/graphx-programming-guide.html * tim原创 2016-05-03 21:12:48 · 1777 阅读 · 0 评论 -
Spark组件之GraphX学习6--随机图生成和出度入度等信息显示
更多代码请见:https://github.com/xubo245/SparkLearning1解释简单不详述2.代码:/** * @author xubo * ref http://spark.apache.org/docs/1.5.2/graphx-programming-guide.html * time 20160503 */package原创 2016-05-03 21:00:11 · 2121 阅读 · 0 评论 -
Spark组件之GraphX学习5--随机图生成和消息发送aggregateMessages以及mapreduce操作(含源码分析)
更多代码请见:https://github.com/xubo245/SparkLearning0.主要:随机图生成消息发送aggregateMessages ,进行reducer计算最后还有个mapValues操作1解释(1)随机图生成GraphGenerators.logNormalGraph随机图生成方法源码:默认出度为4,标准偏差为1.3,并行原创 2016-05-03 20:48:44 · 3561 阅读 · 1 评论 -
Spark组件之GraphX学习4--Structural Operators:mask
更多代码请见:https://github.com/xubo245/SparkLearning1解释connectedComponents源码:返回连接成分的顶点值:包含顶点Id,属性没了 /** * Compute the connected component membership of each vertex and return a graph wi原创 2016-05-03 20:03:03 · 1625 阅读 · 0 评论 -
Spark组件之GraphX学习3--Structural Operators:subgraph
更多代码请见:https://github.com/xubo245/SparkLearning1解释子图,过滤结构化操作有多个class Graph[VD, ED] { def reverse: Graph[VD, ED] def subgraph(epred: EdgeTriplet[VD,ED] => Boolean, vpre原创 2016-05-03 19:43:19 · 1894 阅读 · 0 评论 -
Spark组件之GraphX学习2--triplets实践
更多代码请见:https://github.com/xubo245/SparkLearning1解释2.代码:/** * @author xubo * ref http://spark.apache.org/docs/1.5.2/graphx-programming-guide.html * time 20160503 */package原创 2016-05-03 19:19:55 · 3168 阅读 · 0 评论 -
Spark组件之GraphX学习1--入门实例Property Graph
更多代码请见:https://github.com/xubo245/SparkLearning比较好理解,详细了解请看参考【1】1.属性图2.代码:/** * @author xubo * ref http://spark.apache.org/docs/1.5.2/graphx-programming-guide.html * time 2016原创 2016-05-03 19:09:53 · 2172 阅读 · 0 评论 -
Spark-Avro学习9之SCALA环境下Avro使用(不生成code方式)
1.与上篇类似,只是代码改下:package org.apache.spark.avro.learningimport java.io.Fileimport java.text.SimpleDateFormatimport java.util.Dateimport org.apache.avro.Schemaimport org.apache.avro.file.DataFileR原创 2016-05-02 15:58:23 · 2455 阅读 · 0 评论 -
Spark-Avro学习8之Java Avro使用(不生成code方式)
1.解释 Avro与thrift,protocol buffer区别之一是:Dynamic typing: 不必需生成代码(生成代码只是优化选项)2.代码:/** * @author xubo * time 20160502 * ref http://avro.apache.org/docs/1.7.7/gettingstartedjava.html#Defi原创 2016-05-02 15:25:41 · 1587 阅读 · 0 评论 -
Spark-Avro学习7之Java Avro使用(生成code方式)
1.下载jar包:http://mirrors.hust.edu.cn/apache/avro/stable/java/2.建立Schema:在project的src下{ "namespace": "example.avro", "type": "record", "name": "User", "fields": [ { "nam原创 2016-05-02 12:12:14 · 2943 阅读 · 1 评论 -
Spark-Avro学习6之Ubuntu下安装
1.下载:git clone https://github.com/databricks/spark-avro.git2.安装:./build/sbt package3,记录:hadoop@Master:~/cloud/testByXubo/soft/spark-avro$ ./build/sbt packageUsing /usr/lib/jvm/jdk1.7.0原创 2016-05-02 11:32:26 · 1281 阅读 · 0 评论 -
Spark-Avro学习5之使用AvroReadSpecifyName存储AVRO文件时指定name和namespace
更多Spark学习examples代码请见:https://github.com/xubo245/SparkLearning1.制定avro存储时的name和namespace2.代码:/** * @author xubo * @time 20160502 * ref https://github.com/databricks/spark-avro */p原创 2016-05-02 11:29:07 · 1224 阅读 · 0 评论