spark
DevinShuai
随性而为
展开
-
spark异常记录
阿里云EMR running beyond physical memory limits. Current usage: 2.1 GB of 2 GB physical memory used(1) 调整 spark.yarn.driver.memoryOverhead 或 spark.yarn.executor.memoryOverhead(2) 在作业编辑页面设置内存(默认2G)。 作业设置→高级设置→内存设置spark不打印stage运行(1)2.3版本之后,默认关闭。开启设置co..原创 2020-05-10 19:59:13 · 243 阅读 · 0 评论 -
Eclipse创建包含Scala的Maven工程_Spark学习demo
为了学习spark,在mac上使用eclipse创建包含scala的maven工程,并打包至于服务器运行。 1.1 hadoop安装安装hadoop2.6.0,参考博客1.2 spark下载下载spark-1.6.0-bin-hadoop2.6.tgz,在官网下载,在 choose a download type中建议选择 select apache mirror。 下载完成之后放在自己的相应目原创 2016-12-04 18:14:14 · 1522 阅读 · 0 评论 -
Spark集群搭建
零基础搭建hadoop集群,目标 1(master)+2(slaves)工具准备:搭建hadoop集群, 参考* http://blog.csdn.net/shuaidan19920412/article/details/72587855 ** Scala version 2.10.4 官网下载 *spark-1.6.1-bin-hadoop2.6 官网下载 1. scala 安装,翻译 2017-06-03 17:47:19 · 300 阅读 · 0 评论 -
Spark各种问题汇总
1. spark streaming 与kafka报错 不能序列化ConsumerRecord,描述:object not serializable (class: org.apache.kafka.clients.consumer.ConsumerRecord,原因: KafkaUtils.createDirectStream 后使用了repartition(n)原创 2018-01-24 21:03:22 · 1345 阅读 · 3 评论 -
Mac 安装使用kafka
1. 安装kafka$ brew install kafka(1) 安装过程将依赖安装 zookeeper(2) 软件位置/usr/local/Cellar/zookeeper/usr/local/Cellar/kafka(3) 配置文件位置/usr/local/etc/kafka/zookeeper.properties/usr/local/翻译 2018-01-20 15:43:08 · 3073 阅读 · 0 评论 -
阿里云EMR spark streaming 消费kafka数据
先吐槽一下阿里云,简直了,为了一个简单demo,简直无语先是本身MQ的kafka有问题,然后3.30升级也无这方面文档提供,回到正题:本文主要讲讲述下再阿里云的emr中的spark streaming怎么连接阿里云的消息kafka1. kafka配置 在新的消息队列kafka中,申请topic+consumer groupID (1) topic建议测试使用外网 (2)阿里云需建...原创 2018-04-04 11:57:04 · 1275 阅读 · 0 评论