自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(11)
  • 收藏
  • 关注

原创 org.apache.spark.SparkException: Task not serializable问题分析

问题描述及原因分析 在编写Spark程序中,由于在map等算子内部使用了外部定义的变量和函数,从而引发Task未序列化问题。然而,Spark算子在计算过程中使用外部变量在许多情形下确实在所难免,比如在filter算子根据外部指定的条件进行过滤,map根据相应的配置进行变换等。为了解决上述Task未序列化问题,这里对其进行了研究和总结。出现“org.apache.spark.SparkExcep

2016-09-06 10:52:54 4377

原创 Spark内核-笔记1

术语解释 术语 解释 Application 基于Spark的用户程序,包含了driver程序和集群上的executor Driver Program 运行main函数并且新建SparkContext的程序 Cluster Manager 在集群上获取资源的外部服务(例如:standalone,Mesos,Yarn) Worker Node 集群中任何可以运行应用

2015-10-26 11:53:58 565

原创 WARN TaskSchedulerImpl: Initial job has not accepted any resources; check your cluster uito ensure

当运行Spark程序,出现这样的问题WARN TaskSchedulerImpl: Initial job has not accepted any resources; check your cluster uito ensure that workers are registered and have sufficient memory然后停下来,登录webUI看到的Status是Wait,分配

2015-10-20 15:54:33 6474

原创 Spark: FetchFailedException: unable to create channel..

在运行Spark程序的时候,遇到了以下错误:org.apache.spark.shuffle.FetchFailedException: Unable to create Channel from class class io.netty.channel.socket.nio.NioSocketChannel at org.apache.spark.shuffle.hash.BlockSto

2015-10-18 09:59:01 3863

原创 GC overhead limit exceeded : Spark

我在运行Spark程序的时候报错java.lang.OutOfMemoryError:GC overhead limit exceeded伴随着通常有:java.lang.OutOfMemoryError:Java heap spaceorg.apache.spark.shuffle.FetchFailedException:Failed to connect to ...这是因为executor的

2015-10-13 10:41:55 9077

原创 Spark java.lang.UnsatisfiedLinkError: org.apache.hadoop.util.NativeCrc32

环境: Spark11.3-Hadoop2.6-bin 、Hadoop-2.5 在运行Spark程序写出文件(savaAsTextFile)的时候,我遇到了这个错误:java.lang.UnsatisfiedLinkError: org.apache.hadoop.util.NativeCrc32.nativeVerifyChunkedSums(IILjava/nio/ByteBuffer;IL

2015-09-30 09:49:08 8278

原创 scala应用-基于user协同过滤的推荐系统

以下是一个只用scala语言开发的推荐系统,这个只能运行一些小数据集,当然可以改造成多线程,实践告诉我们,百M级别多线程和分布式的相同配置的机器在运算上并没有很大的时间上的差别。这个要研究scala源码的线程池对象(和java的很类似)。SimilarityMetrics.scala:package com.glad.mlobject SimilarityMetrics { /** * C

2015-09-29 23:03:17 3282 7

原创 hadoop fs -put Exception in thread "main" java.lang.UnsatisfiedLink

在Hadoop put文件到HDFS上遇到这个错误,具体为:Exception in thread "main" java.lang.UnsatisfiedLinkError: org.apache.hadoop.util.NativeCrc32.nativeComputeChunkedSumsByteArray(II[BI[BIILjava/lang/String;JZ)V at org.

2015-09-29 21:33:07 3160

原创 Scala集合一些操作

Scala 集合一些操作

2015-09-23 17:29:49 787

原创 Spark RDD转换成其他数据结构

在Spark推荐系统编程中,RDD转换成其他数据结构

2015-09-23 16:32:14 4636 1

原创 scala中 -> 与 <- 操作符的区别

<- 操作符 与 ->操作符 区别

2015-09-14 19:11:43 1238

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除