Spark
哪有天生的学霸,一切都是厚积薄发
天道酬勤,商道酬信,学道酬苦,业道酬精 ,人道酬诚。
展开
-
Spark用Java实现的WordCount
java版本的sparkWordCount/** * Java版本的spark WordCount */public class JavaWordCount { public static void main(String[] args) { //1.先创建conf对象进行配置,主要是设置名称,为了设置运行模式 SparkConf conf = ne...原创 2018-12-04 20:38:27 · 1078 阅读 · 0 评论 -
Spark
术语解释Application: 基于Spark用户,包含了Driver程序在spark中,你启动了一个spark shell 就相当于一个application,以什么为基准呢,就是说,一个sparkContext,只要你有这个类,那么就说你有一个Application,但是在Spark shell中已经给你创建好了sc,Driver: 运行main函数并且新建SparkContextc...原创 2019-02-20 22:02:37 · 233 阅读 · 0 评论 -
function is neither a registered temporary function nor a permanent function registered in the datab
Exception in thread “main” org.apache.spark.sql.AnalysisException: Undefined function: ‘group_concat_distinct’. This function is neither a registered temporary function nor a permanent function regist...原创 2019-01-02 22:30:58 · 8793 阅读 · 3 评论 -
Task not serializable
C:\Java\jdk1.8.0_191\bin\java.exe "-javaagent:D:\IntelliJ IDEA 2018.2.4\lib\idea_rt.jar=55960:D:\IntelliJ IDEA 2018.2.4\bin" -Dfile.encoding=UTF-8 -classpath C:\Java\jdk1.8.0_191\jre\lib\charsets.jar;...原创 2019-01-04 20:57:12 · 2332 阅读 · 1 评论 -
Exception in thread "main" java.lang.NoClassDefFoundError: scala/collection/GenTraversableOnce$class
<dependency> <groupId>org.scala-lang</groupId> <artifactId>scala-library</artifactId> <version>2.11.8</version></dependency>原创 2018-12-24 19:35:19 · 3681 阅读 · 1 评论 -
Exception in thread "main" java.lang.NoSuchMethodError: scala.collection.immutable.HashSet$.empty()L
Scala 的版本与 Spark版本不匹配博主用的是 Spark 1.5.1 之前装的 Scala 2.11.0 ,运行示例SparkPi出现上述错误。改用Scala 2.10.6 ,问题解决了。原创 2019-01-03 23:53:06 · 473 阅读 · 0 评论 -
Error:scalac: bad option: '-make:transitive'
Error:scalac: bad option: ‘-make:transitive’解决:修改scala_compiler.xml文件删除掉参数行包含-make:transitive保存后退出编辑并重启idea打开项目原创 2019-01-03 23:40:10 · 513 阅读 · 0 评论 -
Exception in thread "main" org.apache.spark.SparkException: java.nio.channel
Exception in thread “main” org.apache.spark.SparkException: java.nio.channels.ClosedChannelExceptionorg.apache.spark.SparkException: Couldn’t find leader offsets for Set([myTopic,0])原创 2019-01-03 21:01:42 · 3225 阅读 · 1 评论 -
Exception in thread "main" java.lang.NoSuchMethodError: scala.Predef$.ArrowAssoc(Ljava/lang/Object;)
其实这个错误就是编译的程序的scala版本和提交时的版本不一致导致的.我是在idea上写的scala程序 用的是2.11.8, 但是在提交spark时 忽然发现spark用的是2.10.5解决办法:就是在idea上重新下个和spark集群上相同的版本就行了 .但是我在集群上配置的明明就是2.11.8 包括 spark-env.sh里的配置也是原因:spark1.6.1(当前版本)还...转载 2018-12-18 19:27:33 · 841 阅读 · 0 评论 -
Spark简介、安装及一个简单的wordCount
回顾1.基础语言:Java2.大数据生态圈hadoop三大组件: HDFS MapReduce YarnHDFS : 用来存储数据MapReduce : 用来计算数据YARN: 进行资源调度zookeeper : 分布式管理3.Hive 使用的是类似SQL语言的HiveQL语言—&amp;amp;amp;gt;HQL语言4.HBASE数据存储海量数据,NoSQL --&amp;amp;amp;gt;Not Only Sql ,...原创 2018-12-03 21:33:41 · 545 阅读 · 0 评论 -
用spark实现单词统计
import org.apache.spark.rdd.RDDimport org.apache.spark.{SparkConf, SparkContext}/** * 用spark实现单词统计 */object SparkWorkCount { def main(args: Array[String]): Unit = { /* 1.创建sparkC...原创 2018-12-03 20:44:59 · 5832 阅读 · 0 评论 -
Spark(二)----RDD
Spark是一个大数据分布式并行计算框架,不仅实现了MapReduce的算子,map函数和reduce函数形成了一个计算模型。还提供了更加丰富的算子,Spark中提到的算子的概念就可以简称为RDD。RDD叫做分布式数据集,是Spark中最基本的数据抽象,它是一个不可变,可分区,里面的元素可以并行计算的集合。RDD数据流模型的特点:自动容错,位置感知和可伸缩,RDD允许在执行多个查询时显示的将...原创 2018-12-04 23:43:45 · 345 阅读 · 0 评论 -
spark RPC详解
前段时间看spark,看着迷迷糊糊的。最近终于有点头绪,先梳理了一下spark rpc相关的东西,先记录下来。1,概述个人认为,如果把分布式系统(HDFS, HBASE,SPARK等)比作一个人,那么RPC可以认为是人体的血液循环系统。它将系统中各个不同的组件(如Hbase中的master, Regionserver, client)联系了起来。同样,在spark中,不同组件像driver,e...转载 2019-03-08 10:27:41 · 405 阅读 · 0 评论