spark-概念

本文长篇介绍了spark基本概念和spark Streaming 、spark sql 请仔细阅读,红色标注的是我认为比较重要的运行环境基本概念Spark生态圈以Spark Core为核心,从HDFS、Amazon S3和HBase等持久层读取数据,以MESS、YARN和自身携带的Standalone为资源管理器调度Job完成Spark应用程序的计算。 这些应用程序可以来自于不同的组件,如Spar...
阅读(419) 评论(0)

学习 spark 的一些疑问

1. SparkSession和sqlContext 的关系?在Spark的早期版本,sparkContext是进入Spark的切入点。我们都知道RDD是Spark中重要的API,然而它的创建和操作得使用sparkContext提供的API;对于RDD之外的其他东西,我们需要使用其他的Context。比如对于流处理来说,我们得使用StreamingContext;对于SQL得使用sqlContext...
阅读(385) 评论(0)

sparkStreaming集成Kafka

这几天看了spark集成Kafka,消费Kafka数据并向Kafka发送数据,仿照官方样例写了两个小例子。在此分享一下。 1.添加Kafka的repository 2.DirectKafkaWordCountDemo代码展示 3.kafkaProducer代码展示 4.从Kafka 集群中消费数据并处理后再存入Kafka代码展示 本案例中使用的Kafka为三个broker一个zookeeper的Kafka...
阅读(1265) 评论(0)

spark整合kafka打包运行错误处理

问题1WARN NativeCodeLoader: Unable to load native-hadoop library for your platform... using builtin-java classes where applicable Exception in thread "main" java.lang.NoClassDefFoundError: kafka/serializ...
阅读(1156) 评论(0)

SparkSQLDemo初尝--SparkSession链接数据库

本例子通过spark sql 链接其他数据库。对数据库的信息进行操作。过滤。代码时刻:首先是main 方法,创建SparkSession实例。 def main(args: Array[String]) { val sparkConf = new SparkConf().setAppName("SparkSQLDemo") sparkConf.setMaster("local")...
阅读(2245) 评论(0)

sparkStreaming初尝--scala链接mysql分析

本例子是我初尝 spark 的sparkStreaming官方小例子修改的。我的思路是使用jdbc 链接数据库,然后查询数据库,将查询结果生成一个RDD ,放入RDD queue,然后每次取出rdd 进行计算和过滤处理。本文结构如下: 1.sparkStreamingDemo 2.scala 链接mysql 数据库 1.sparkStreamingDemo由于这个demo需要spark 和jdbc...
阅读(1909) 评论(0)

spark开发环境搭建(基于idea 和maven)

使用idea构建maven 管理的spark项目 ,默认已经装好了idea 和Scala,mac安装Scala 那么使用idea 新建maven 管理的spark 项目有以下几步: scala插件的安装 全局JDK和Library的设置 配置全局的Scala SDK 新建maven项目 属于你的”Hello World!” 导入spark依赖 编写sprak代码 打包在spark上运行 1.sc...
阅读(8565) 评论(2)

Spark进阶体验

本章节通过spark-shell进入我们的单机spark的终端进行一些简单的运算。 本节内容如下 新建RDD 进行乘法操作 新建RDD 进行过滤操作 编写wordCount小例子 union的使用 groupByKey join reduce lookup 首先安装和启动spark,此部分请参照mac 单机版 spark 安装启动后进入spark 的bin 目录运行spark-shell 进入终端...
阅读(1285) 评论(0)

mac 单机版 spark 安装

本文介绍安装单机版的spark,安装单机版的spark 分一下步骤 安装scala 下载spark 压缩包并解压 修改spark的配置文件 配置环境变量 验证安装情况 安装Scalamac安装scala教程下载spark压缩包并解压到官网下载spark的安装包(我用的是spark-2.0.1-bin-hadoop2.7.tgz)http://mirror.bit.edu.cn/apache/spa...
阅读(2753) 评论(0)
    个人资料
    • 访问:640181次
    • 积分:9011
    • 等级:
    • 排名:第2312名
    • 原创:305篇
    • 转载:34篇
    • 译文:0篇
    • 评论:209条
    博客专栏