spark
文章平均质量分 83
Ta-ttoo
这个作者很懒,什么都没留下…
展开
-
spark概述
MapReduce的不足只有两种操作,表达能力欠缺,复杂的计算实现难度大Job的结果保存在HDFS迭代式计算性能比较差延时高,只适合批处理计算,交互式、实时数据处理支持不够spark的产生是直击之前的传统的基于分布式的计算框架MapReduce的一些缺点而设计的:SpeedEase of Use1、提供Scala、Java、Python、R的编程接口2、提供了很多的高层API...原创 2018-11-14 20:53:00 · 105 阅读 · 0 评论 -
SparkSQL基础
SparkSQL概述SparkSQL是Spark的结构化数据处理模块。特点如下:数据兼容:可从Hive表、外部数据库(JDBC)、RDD、Parquet 文件、JSON 文件获取数据;组件扩展:SQL 语法解析器、分析器、优化器均可重新定义;性能优化:内存列存储、动态字节码生成等优化技术,内存缓存数据;多语言支持:Scala、Java、Python;Shark即Hive on Spa...原创 2018-11-29 22:57:37 · 1707 阅读 · 0 评论 -
Spark-core知识体系总结
RDD是spark的核心概念,它是一个容错、可以并行执行的分布式数据集。RDD包含5个特征:1、一个分区的列表2、一个计算函数compute,对每个分区进行计算3、对其他RDDs的依赖(宽依赖、窄依赖)列表4、对key-value RDDs来说,存在一个分区器(Partitioner)【可选的】5、对每个分区有一个优先位置的列表【可选的】Spark 以一个弹性分布式数据集(RDD)的...原创 2018-11-28 23:08:38 · 432 阅读 · 0 评论 -
Ubuntu下搭建spark2.4环境(单机版)
说明:单机版的Spark的机器上只需要安装JDK即可,其他诸如Hadoop、Zookeeper(甚至是scala)之类的东西可以一概不安装。集群版搭建:Spark2.2集群部署和配置一、安装JDK1.81、下载JDK1.8,地址2、将下载的文件保存在 /home/qq/java下,进行解压,解压后文件夹为 jdk1.8.0_171:tar -zxvf jdk-8u171-linux-i5...原创 2018-11-23 20:14:47 · 975 阅读 · 1 评论 -
scala安装部署
查询Scala API:http://www.scala-lang.org/api/2.11.0/index.html#scala.math.package官网: http://www.scala-lang.org/Scala download:https://www.scala-lang.org/download/Java的版本:1.8.x (根据Spark版本确定)IDE:Inte...原创 2018-11-22 01:50:38 · 385 阅读 · 0 评论 -
Spark2.2集群部署和配置(CentOS)
说明1、Spark版本:2.2.0 2、Spark下载的地址3、Spark下载的类型:源码、编译后的软件包等4、Spark依赖的软件/软件包:Linux(Centos 6.5)Java(1.8+)Scala(2.11.8)Hadoop(2.7)Maven(3.3.9 +)【非必须】Python(2.7+/3.4+)R(3.1+)假设前提:已经设置好了虚拟机;完成了:Li...原创 2018-11-22 00:38:14 · 379 阅读 · 0 评论 -
Spark开发环境搭建(IDEA、Maven)
在scala的学习中,我们的IDEA已经能做普通的scala开发;如果要开发spark程序,只要引入spark相关的依赖即可(即导入spark相关的jars);导入spark相关的依赖有两个办法:引入相关的jars(操作简单)使用maven/sbt管理jars(操作复杂)Maven简介Maven是一个跨平台的项目管理工具(Apache开源项目)。它主要服务于基于Java平台的项目构建...原创 2018-11-22 00:04:42 · 357 阅读 · 0 评论 -
Spark2.2.0开发之maven配置
基于maven的spark开发配置。可根据项目情况,调节spark.version和scala.version即可。<?xml version="1.0" encoding="UTF-8"?><project xmlns="http://maven.apache.org/POM/4.0.0" xmlns:xsi=&原创 2018-11-21 23:40:47 · 1817 阅读 · 0 评论 -
spark作业常见异常
1、java.lang.IllegalArgumentException: System memory … must be at least … Please use a larger heap … spark.driver.memory…解决:可能跟driver.memory无关,先设置应用程序的 VM optionsidea的设置路径在:Run -Edit Configurations-...原创 2018-11-21 15:59:52 · 251 阅读 · 0 评论 -
scala整理
Scala语言的特点:基于JVM(可以重用类库)简洁优雅面向对象 + 函数式编程(FP)函数式编程的数学基础是 : λ演算函数式编程中,所有的数据都是不可变的,不同的函数之间通过数据流来交换信息,函数作为FP中的一等公民,享有跟数据一样的地位,可以作为参数传递给下一个函数,同时也可以作为返回值。基础语法Scala基础程序文件的名称可以不与对象名称完全匹配;程序从main()...原创 2018-11-20 18:35:09 · 121 阅读 · 0 评论 -
Spark Streaming知识总结
Spark Streaming原理Spark Streaming 是基于spark的流式批处理引擎。其基本原理是:将实时输入数据流以时间片为单位进行拆分,然后经Spark引擎以类似批处理的方式处理每个时间片数据。Spark Streaming作业流程客户端提交作业后启动Driver(Driver是spark作业的Master);每个作业包含多个Executor,每个Executor以...原创 2018-12-05 20:07:33 · 905 阅读 · 1 评论