spark
富的只剩下代码
富的只剩下代码
展开
-
Spark 部署及示例代码讲解
原文地址:http://www.ibm.com/developerworks/cn/opensource/os-cn-spark-deploy1/index.html#ibm-pconSpark workcount示例代码运行原理本文介绍了如何下载、部署 Spark 及示例代码的运行。此外,深入介绍了运行代码的过程、脚本内容,通过这些介绍力求让读者可以快速地上手 Spark转载 2016-05-06 11:03:48 · 4099 阅读 · 0 评论 -
搭建Spark所遇过的坑
https://www.cnblogs.com/qifengle-2446/p/6424377.html一.经验1.Spark Streaming包含三种计算模式:nonstate .stateful .window2.kafka可通过配置文件使用自带的zookeeper集群3.Spark一切操作归根结底是对RDD的操作4.部署Spark任务,不用拷贝整个架包,只需拷贝被修改的...转载 2018-09-19 09:58:24 · 538 阅读 · 0 评论 -
[ambari hdp]YarnSchedulerBackend$YarnSchedulerEndpoint: Container marked as failed
最近在使用ambari hdp 2.6.3版本,过程中提交spark程序时报如下错误:YarnSchedulerBackend$YarnSchedulerEndpoint: Container marked as failed exit code 1看了官方的解释,链接如下,大概意思是说你在提交spark任务时的contanier的内存总大小(每个excutor个数乘上每个excutor的...原创 2018-07-19 09:46:56 · 5589 阅读 · 0 评论 -
spark性能优化:数据倾斜调优
https://blog.csdn.net/lw_ghy/article/details/51419877调优概述有的时候,我们可能会遇到大数据计算中一个最棘手的问题——数据倾斜,此时Spark作业的性能会比期望差很多。数据倾斜调优,就是使用各种技术方案解决不同类型的数据倾斜问题,以保证Spark作业的性能。数据倾斜发生时的现象 1、绝大多数task执行得都非常快,但个别task执行极慢。比如,...转载 2018-05-19 21:22:14 · 136 阅读 · 0 评论 -
spark内核揭秘-14-Spark性能优化的10大问题及其解决方案
https://blog.csdn.net/stark_summer/article/details/42981201问题1:reduce task数目不合适解决方案:需要根据实际情况调整默认配置,调整方式是修改参数spark.default.parallelism。通常的,reduce数目设置为core数目的2-3倍。数量太大,造成很多小任务,增加启动任务的开销;数目太小,任务运行缓慢。所以要合...转载 2018-05-19 21:16:37 · 370 阅读 · 0 评论 -
Spark 批量写数据入HBase,spark数据入hbase
原文地址:http://www.bkjia.com/yjs/1010813.htmlSpark 批量写数据入HBase,spark数据入hbase介绍 工作中常常会遇到这种情形,需要将hdfs中的大批量数据导入HBase。本文使用Spark+HBase的方式将RDD中的数据导入HBase中。没有使用官网提供的newAPIHadoopRDD接口的方式。使用本文的转载 2016-07-22 07:09:14 · 8797 阅读 · 0 评论 -
Spark将HDFS数据导入到HBase
原文地址:http://blog.csdn.net/korder/article/details/47422025本程序运行环境:Spark+HDFS+HBase+Yarn Hadoop(HDFS+Yarn)集群搭建,参考:http://blog.csdn.net/korder/article/details/46909253 Spark on Yarn,参考:http://b转载 2016-07-22 07:08:13 · 2346 阅读 · 0 评论 -
spark生成HFile导入到hbase
原文地址:http://www.cnblogs.com/luckuan/p/5142203.htmlimport java.util.Dateimport org.apache.hadoop.fs.Pathimport org.apache.hadoop.hbase.client.{HTable, Table, _}import org.apache.hadoop.hbase.io.I转载 2016-07-22 07:04:18 · 4549 阅读 · 1 评论 -
Spark 读取HDFS存入 HBase(1.0.0 新 API)
原文地址:http://www.th7.cn/db/nosql/201602/177530.shtmlSpark 读取HDFS存入 HBase(1.0.0 新 API)HBase经过七年发展,终于在今年2月底,发布了 1.0.0 版本。这个版本提供了一些让人激动的功能,并且,在不牺牲稳定性的前提下,引入了新的API。虽然 1.0.0 兼容旧版本的 API,不过还是应该尽早地转载 2016-07-22 07:00:59 · 2687 阅读 · 0 评论 -
Spark 操作Hbase 对表的操作:增删改查 scala
原文地址:http://www.ithao123.cn/content-2523824.html[摘要:正在build.sbt中设置装备摆设依附(止之间须要空) ame := test2 scalaVersion := 2.10.4 libraryDependencies = Seq( org.apache.spark % spark-core % 1.0.0, org.apache.hbas转载 2016-07-22 06:59:03 · 3579 阅读 · 0 评论 -
Spark读取Hbase中的数据
原文地址:http://www.iteblog.com/archives/1051大家可能都知道很熟悉Spark的两种常见的数据读取方式(存放到RDD中):(1)、调用parallelize函数直接从集合中获取数据,并存入RDD中;Java版本如下:JavaRDD myRDD = sc.parallelize(Arrays.asList(1,2,转载 2016-07-22 00:15:38 · 3113 阅读 · 0 评论 -
Spark方面的大牛博客地址收集!
http://blog.51cto.com/36006798/1872498Spark方面的大牛博客地址收集! 1、石山园 http://www.cnblogs.com/shishanyuan/ 2、段智华的博客 http://blog.csdn.net/duan_zhihua 3、西红柿炒土豆 http://blog.cs...转载 2018-10-25 16:56:29 · 250 阅读 · 0 评论