大数据—Spark
章锡平
道生一,一生二,二生万物。
展开
-
sparkStreaming写入elasticsearch报错Could not write all entries for bulk operation
背景今天遇到一个问题,在运行sparkStreaming任务写ES,出现如下错误:20/04/27 09:45:12 ERROR spark.TaskContextImpl: Error in TaskCompletionListenerorg.elasticsearch.hadoop.EsHadoopException: Could not write all entries for bu...原创 2020-05-06 10:28:38 · 1799 阅读 · 0 评论 -
实时任务 offset管理
背景现在运行的实时任务基本上都是使用sparkStreaming,当然后面考虑使用最近比较火的flink,看了部分资料介绍后,我感觉sparkStreaming相对于flink,唯一的不足是,sparkStreaming在task调度上损耗了不少性能。flink还没有深入研究内部实现,flink现在这么火,后面找找相关资料学习一番。今天主要记录一下当前我所用到的sparkStreaming任务是...原创 2020-04-28 15:02:37 · 323 阅读 · 0 评论 -
1.认识大数据
认识大数据大数据是什么 ?通过下面这个例子,认识下大数据是怎么来的(仅个人想法)。为什么需要spark?原创 2019-09-29 11:42:09 · 185 阅读 · 0 评论 -
spark Rest Api 使用
Rest APIspark可以通过UI查看指标。这样可以让开发者很容易的创建一些可视化的工具。这些命令同时也只支持正在运行的应用。对于history server,访问的地址是http://:18080/api/v1,对于正在运行的任务,可以访问http://localhost:4040/api/v1在这些api中,应用的标识为ID[app-id]。当通过YARN启动时,每个应用可能会有多次尝...原创 2020-03-24 14:40:13 · 1995 阅读 · 4 评论 -
sparkSql 随机打散分配
UDF 函数val randomNew = (str :String, n: Int) => { val buffer = ArrayBuffer[Int](-1) var length:Int = 1 var index:Int = -1 for(a <- str){ index = index +...原创 2020-01-03 14:02:07 · 1439 阅读 · 0 评论 -
spark 调试篇
调试命令调试所有spark-submit --master yarn --deploy-mode client --verbose --conf spark.rpc.askTimeout=600s --conf spark.rpc.lookupTimeout=600s --conf spark.rpc.retry.wait=60s --conf spark.network.timeout=6...原创 2020-03-23 20:16:09 · 320 阅读 · 0 评论 -
sparkStreaming 输入DStream之Kafka数据源两种模式
第一种 receiverreceiver 模式 : spark 会先使用kafka的高级api 读取一个批次的数据存放在executor内存,然后再进行处理。几个不好的地方,第一个 ,kafka topic的partition 与spark的RDD的partition是没有对应关系的,并发不高,第二个,在spark处理数据出现问题可能因spark的executor异常退出,丢失内存里的数据,...原创 2019-10-30 10:49:57 · 132 阅读 · 0 评论 -
Elasticsearch-spark 源码解析 ---savetoEs
...转载 2020-03-18 13:42:19 · 321 阅读 · 0 评论 -
sparksql 2.4 PIVOT 使用
1.背景在设计用户标签时,需要将1个维度多个值的情况生成多个标签,例如,用户视频的设备的类型,由于用户含有多个设备,所以需要将每个设备类型设置成一个标签,业务方在使用时,需要过滤同时含有多个某些设备时,就可以方便的过滤。例如下面数据:+------------+--------------------+-----+-----+| proxyId| ...原创 2020-03-10 15:25:13 · 1954 阅读 · 0 评论 -
SparkStreaming 过滤日志
由于sparkStreaming日志太多不便于查找关键的日志,而且在spark1.6版本,日志默认是打印在根目录所在磁盘,实时任务日志会随着时间越来越大,可能会给服务造成影响,此时需要过滤掉某些类的日志。// 屏蔽不必要的日志 ,在终端上显示需要的日志import org.apache.log4j.{Level, Logger}Logger.getLogger("org.apache.spa...原创 2020-01-14 11:44:34 · 642 阅读 · 0 评论 -
问题 Spark Yarn集群模式 exitCode = 13
背景今天一同事在提交任务时遇到一个很奇葩的问题,使用的是集群模式提交的spark任务下面是运行的日志:Log Length: 1906020/03/25 14:43:03 INFO util.SignalUtils: Registered signal handler for TERM20/03/25 14:43:03 INFO util.SignalUtils: Registered...原创 2020-03-25 17:29:02 · 7375 阅读 · 2 评论 -
问题 executor.Executor: Managed memory leak detected;
spark 内存泄漏错误日志在cdh5.9.1集群跑spark任务时,Executor端出现如下日志,查看网上相关资料,这是spark1.6版本的bug SPARK-14560,目前已经在spark2.0 修复。20/01/06 17:06:18 WARN memory.TaskMemoryManager: leak 64.3 MB memory from org.apache.spark....原创 2020-01-07 11:54:05 · 1311 阅读 · 1 评论 -
问题 spark udf函数不能序列化
如下在实现spark的udf函数时:val randomNew = (arra:Seq[String], n:Int)=>{ if(arra.size < n){ return arra.toSeq } var arr = ArrayBuffer[String]() arr ++= arra var outL...原创 2019-12-16 20:30:18 · 1250 阅读 · 0 评论 -
问题 WrappedArray$ofRef cannot be cast to [Ljava.lang.String
注册udf函数val addArray = (a:Array[String],b:Array[String])=>{ Array.concat(a, b) }udf 函数功能把两个数组合并为一个数组,错误日志scala.collection.mutable.WrappedArray$ofRef cannot be cast to [Ljava.lang.Stri...原创 2019-11-14 17:08:11 · 1662 阅读 · 0 评论 -
问题 spark 读取lzo格式数据: Premature EOF from inputStream
业务场景公司业务有部分数据是lzo格式的,在使用spark读取解析时,出现错误。错误日志User class threw exception: org.apache.spark.SparkException: Job aborted due to stage failure: Task 11 in stage 1.0 failed 4 times, most recent failure: ...原创 2019-09-29 14:47:06 · 469 阅读 · 0 评论 -
问题 spark读取hbase数据写入ES报错
业务流程首先说说我们的业务实现,数据存储在hbase中,通过hive表关联,然后运行spark任务,读取hive表数据,调用es提供的saveToEs方法,将dataframe写入ES错误日志Job aborted due to stage failure: Task 2 in stage 0.0 failed 4 times, most recent failure: Lost task ...原创 2019-09-24 15:54:15 · 564 阅读 · 0 评论 -
问题 Cannot run program /etc/spark/conf.cloudera.spark_on_yarn/yarn-conf/topology.py No such file
错误日志在使用cdh大数据平台运行spark任务时,在ApplicationMaster 端出现如下错误日志java.io.IOException: Cannot run program "/etc/spark/conf.cloudera.spark_on_yarn/yarn-conf/topology.py" (in directory "/data/yarn/nm/usercache/a...原创 2019-09-16 17:17:34 · 1184 阅读 · 0 评论 -
问题 spark zeepelin0.8.1无法使用map等算子
错误信息:目前我们有两个版本的CDH集群,CDH5.9.1 ,CDH6.1.1在安装了相同版本的zeepelin0.8.1 ,相同的代码,在CDH5.9.1中出现类找不到的错误org.apache.spark.SparkException: Job aborted due to stage failure: Task 0 in stage 0.0 failed 4 times, most r...原创 2019-11-13 11:39:51 · 207 阅读 · 0 评论