Spark
文章平均质量分 85
__Simon'
如山间清爽的风,如古城温暖的阳光。
展开
-
5.4.1Spark和Hive集成(MySql)
Spark和Hive集成(MySql)一、 编辑hive安装目录下conf目录下的hive-site.xml 更改:hive.metastore.uris<property> <name>hive.metastore.uris</name> <value>thrift://master:9...原创 2018-04-17 10:43:49 · 591 阅读 · 0 评论 -
5.4.0Spark和Hive集成(Derby)
Spark和Hive集成(Derby)一、 更改Hive安装目录conf下的hive-site.xml文件<property> <name>hive.metastore.uris</name> <value>thrift://master:9083</value> <description>T...原创 2018-04-17 10:28:40 · 620 阅读 · 0 评论 -
5.3.2Spark_SQL项目编码(Java)
Spark_SQL项目编码(Java)一、 新建项目maven项目二、 导入pom文件<?xml version="1.0" encoding="UTF-8"?><project xmlns="http://maven.apache.org/POM/4.0.0" xmlns:xsi="http://www.w3.org/2001/XMLSchema-insta...原创 2018-04-16 23:52:52 · 262 阅读 · 0 评论 -
5.3.1Spark_SQL项目编码(Scala)
Spark_SQL项目编码(Scala)一、 新建项目二、 引入pom文件依赖<?xml version="1.0" encoding="UTF-8"?> <project xmlns="http://maven.apache.org/POM/4.0.0" ...原创 2018-04-16 23:46:35 · 569 阅读 · 0 评论 -
5.3.0Spark_SQL入门
Spark_SQL入门一、 Spark SQL概述 Spark SQL是Spark用来处理结构化数据的一个模块,它提供了一个编程抽象叫做DataFrame并且作为分布式SQL查询引擎的作用。二、 Spark SQL 作用 Hive是将Hive SQL转换成MapReduce然后提交到集群上执行,大大简化了编写MapReduce的程序的复杂性,由于MapReduce这种计算...原创 2018-04-16 23:30:48 · 146 阅读 · 0 评论 -
5.2.0Spark计算模型RDD
Spark计算模型RDD一、 RDD概述 1. RDD的定义 RDD(Resilient Distributed Dataset)叫做分布式数据集,是Spark中最基本的数据抽象,它代表一个不可变、可分区、里面的元素可并行计算的集合。RDD具有数据流模型的特点:自动容错、位置感知性调度和可伸缩性。RDD允许用户在执行多个查询时显式地将工作集缓存在内存中,...原创 2018-04-16 23:14:40 · 221 阅读 · 0 评论 -
5.1.1Spark运行wordcount
Spark运行wordcount一、 启动HDFS和Spark二、 启动Spark-shell连接集群./spark-shell--master spark://master:7077 --executor-memory 512m --driver-memory 500m三、 用Scala脚本运行wordcount代码:sc.textFile("hdfs://m...原创 2018-04-16 22:47:06 · 259 阅读 · 0 评论 -
5.0.0Spark安装
Spark安装一、 安装前提 运行 Spark 需要 Java JDK 1.7。Spark 会用到 HDFS 与 YARN,需要先安装Hadoop。Spark由Scala语言开发,本次安装的Spark2.1.1,该版本是使用Scala2.11.8编译。需要版本匹配。二、 上传Spark到安装目录,解压安装三、 配置/etc/profile文...原创 2018-04-02 14:47:48 · 306 阅读 · 0 评论