5.5 spark
文章平均质量分 71
双斜杠少年
希望经记录下来自己学习过程,并和大家一块分享
展开
-
spark整合kafka打包运行错误处理
问题1WARN NativeCodeLoader: Unable to load native-hadoop library for your platform... using builtin-java classes where applicableException in thread "main" java.lang.NoClassDefFoundError: kafka/serializ原创 2016-12-01 16:17:51 · 4567 阅读 · 0 评论 -
spark 安装单机版和集群
本文介绍安装mac单机版的spark,和spark 集群安装 分以下步骤安装scala 下载spark 压缩包并解压修改spark的配置文件配置环境变量验证安装情况 安装Scalamac安装scala教程下载spark压缩包并解压到官网下载spark的安装包(我用的是spark-2.0.1-bin-hadoop2.7.tgz)http://mirr原创 2016-11-18 10:38:59 · 6357 阅读 · 0 评论 -
spark开发环境搭建(基于idea 和maven)
使用idea构建maven 管理的spark项目 ,默认已经装好了idea 和Scala,mac安装Scala 那么使用idea 新建maven 管理的spark 项目有以下几步:scala插件的安装全局JDK和Library的设置配置全局的Scala SDK新建maven项目属于你的”Hello World!”导入spark依赖编写sprak代码打包在spark上运行1.sc原创 2016-11-22 00:26:56 · 60552 阅读 · 30 评论 -
idea远程调试 spark
spark 远端调试本地调试远端集群运行的spark项目,当spark项目在集群上报错,但是本地又查不出问题时,最好的方式就是调试一步一步跟踪代码。但是在集群上的代码又不能像本地一样的调试。那么就试试这个调试方法吧。远程调试spark其实就四步: * 第一步jar包拷贝到集群master节点。 * 第二步在 idea 中配置远程机器的IP 和调试端口号。 * 第三步:启动远端的spark项目。原创 2017-12-25 22:18:10 · 9412 阅读 · 1 评论 -
spark-概念
本文长篇介绍了spark基本概念和spark Streaming 、spark sql 请仔细阅读,红色标注的是我认为比较重要的运行环境基本概念Spark生态圈以Spark Core为核心,从HDFS、Amazon S3和HBase等持久层读取数据,以MESS、YARN和自身携带的Standalone为资源管理器调度Job完成Spark应用程序的计算。 这些应用程序可以来自于不同的组件,如Spar原创 2016-12-18 17:13:53 · 1606 阅读 · 0 评论 -
学习 spark 的一些疑问
1. SparkSession和sqlContext 的关系?在Spark的早期版本,sparkContext是进入Spark的切入点。我们都知道RDD是Spark中重要的API,然而它的创建和操作得使用sparkContext提供的API;对于RDD之外的其他东西,我们需要使用其他的Context。比如对于流处理来说,我们得使用StreamingContext;对于SQL得使用sqlContext原创 2016-12-18 16:32:38 · 811 阅读 · 0 评论 -
sparkStreaming集成Kafka
这几天看了spark集成Kafka,消费Kafka数据并向Kafka发送数据,仿照官方样例写了两个小例子。在此分享一下。1.添加Kafka的repository2.DirectKafkaWordCountDemo代码展示3.kafkaProducer代码展示4.从Kafka 集群中消费数据并处理后再存入Kafka代码展示 本案例中使用的Kafka为三个broker一个zookeeper的Kafka原创 2016-12-08 22:48:18 · 6025 阅读 · 1 评论 -
sparkStreaming初尝--scala链接mysql分析
本例子是我初尝 spark 的sparkStreaming官方小例子修改的。我的思路是使用jdbc 链接数据库,然后查询数据库,将查询结果生成一个RDD ,放入RDD queue,然后每次取出rdd 进行计算和过滤处理。本文结构如下:1.sparkStreamingDemo2.scala 链接mysql 数据库1.sparkStreamingDemo由于这个demo需要spark 和jdbc原创 2016-11-23 23:34:28 · 6315 阅读 · 0 评论 -
SparkSQLDemo初尝--SparkSession链接数据库
本例子通过spark sql 链接其他数据库。对数据库的信息进行操作。过滤。代码时刻:首先是main 方法,创建SparkSession实例。 def main(args: Array[String]) { val sparkConf = new SparkConf().setAppName("SparkSQLDemo") sparkConf.setMaster("local")原创 2016-11-25 00:16:21 · 9990 阅读 · 0 评论 -
Spark进阶体验
本章节通过spark-shell进入我们的单机spark的终端进行一些简单的运算。 本节内容如下新建RDD 进行乘法操作新建RDD 进行过滤操作编写wordCount小例子union的使用groupByKeyjoinreducelookup首先安装和启动spark,此部分请参照mac 单机版 spark 安装启动后进入spark 的bin 目录运行spark-shell 进入终端原创 2016-11-19 17:32:16 · 2393 阅读 · 0 评论 -
java调用shell脚本执行spark任务错误
java调用shell脚本执行spark任务使用java通过 Runtime.getRuntime().exec(); 调用shell 脚本,在脚本中执行 spark 任务会报错,如下:19/05/15 15:46:47 WARN StandaloneAppClient$ClientEndpoint: Failed to connect to master 192.168.9.2:7077...原创 2019-05-16 14:23:23 · 1397 阅读 · 0 评论