spark开发
迷途小码
大数据及后台开发
展开
-
java.lang.ClassCastException: org.apache.hadoop.conf.Configuration cannot be cast to org.apache.hado
Exception in thread "main" java.lang.ClassCastException: org.apache.hadoop.conf.Configuration cannot be cast to org.apache.hadoop.yarn.conf.YarnConfiguration at org.apache.spark.deploy.yarn.Applicat...原创 2020-03-24 09:38:42 · 2040 阅读 · 0 评论 -
spark streaming kafka1.4.1中的低阶api createDirectStream使用总结
======http://blog.csdn.net/ligt0610/article/details/47311771====== 由于目前每天需要从kafka中消费20亿条左右的消息,集群压力有点大,会导致job不同程度的异常退出。原来使用spark1.1.0版本中的createStream函数,但是在数据处理速度跟不上数据消费速度且job异常退出的情况下,可能造成大量的转载 2016-05-24 16:22:56 · 840 阅读 · 0 评论 -
Spark批量写数据入HBase
====== 转自:http://www.it165.net/admin/html/201506/5699.html======介绍工作中常常会遇到这种情形,需要将hdfs中的大批量数据导入HBase。本文使用Spark+HBase的方式将RDD中的数据导入HBase中。没有使用官网提供的newAPIHadoopRDD接口的方式。使用本文的方式将数据导入HBase, 7000W条数据,花费转载 2016-05-16 10:54:37 · 5879 阅读 · 0 评论 -
Spark算子-RDD Action(saveAsNewAPIHadoopFile)
======http://lxw1234.com/archives/2015/07/406.htm======saveAsNewAPIHadoopFiledef saveAsNewAPIHadoopFile[F def saveAsNewAPIHadoopFile(path: String, keyClass: Class[_], valueClass: Class转载 2016-05-16 11:57:28 · 1204 阅读 · 0 评论 -
spark streaming kafka1.4.1中的低阶api createDirectStream使用总结(转)
版权声明:本文为博主原创文章,转载请写明出处。转自:http://blog.csdn.net/ligt0610/article/details/47311771 由于目前每天需要从kafka中消费20亿条左右的消息,集群压力有点大,会导致job不同程度的异常退出。原来使用spark1.1.0版本中的createStream函数,但是在数据处理速度跟不上数据消费速度且转载 2016-06-16 17:56:57 · 737 阅读 · 0 评论 -
How to use Scala on Spark to load data into Hbase/MapRDB -- normal load or bulk load.
refer:http://www.openkb.info/2015/01/how-to-use-scala-on-spark-to-load-data.htmlThis article shows a sample code to load data into Hbase or MapRDB(M7) using Scala on Spark.I will introduce翻译 2016-09-09 11:39:56 · 1273 阅读 · 0 评论 -
yarn spark 环境配置
1、在yarn-site.xml中配置yarn.web-proxy.address的端口,但是实际上点击ApplicationMaster没有反应spark 环境配置" title="yarn spark 环境配置" style="margin:0px; padding:0px; border:0px; list-style:none">需要执行如下命令,对应的参数转载 2016-11-13 08:29:37 · 1266 阅读 · 0 评论 -
spark应用提交
refer: http://m.blog.chinaunix.net/uid-26733228-id-5301647.html在使用spark的时候,难免写spark程序进行数据分析。根据spark的文档,我们提应用程序的方式是使用对应的spark-submit脚本进行,但是在实际的使用中往往需要程序代码提交用于分析的应用。查找相关文档,得到如下程序例子:转载 2017-01-25 20:39:04 · 3190 阅读 · 2 评论