spark
黑尾土拨鼠
远处的是风景,近处的才是人生
展开
-
Spark实战(一)集群搭建
一、单个Mater 1.官网下载spark安装包 2.上次安装包到linux集群上并解压 3.配置,cd到解压目录下的conf目录中,cd conf/mv spark-env.sh.template spark-env.shvi spark-env.sh 在该配置文件中增加如下配置,并保持退出export JAVA_HOME=/home/hadoop/jdk...原创 2018-12-13 10:51:18 · 633 阅读 · 0 评论 -
Spark实战(十一)Spark2.x集成Hive
一、Hive配置(一)、简介 一般的公司都会有自己的数据仓库,而大多数都选择的Hive数据仓库,总所周知hive默认使用MapReduce来进行数据操作,MapReduce在计算过程中会涉及数量巨大的网络传输,这需要耗费大量的时间,在计算过程中会反复读写磁盘,极其耗时,因此使用spark来计算可以提高效率,但是之前有很多数据都是通过hive来操作,好在spark可以无缝集成hive,使用h...原创 2019-04-03 17:48:31 · 1083 阅读 · 0 评论 -
Spark实战(九)sparkRDD转为DataFrame的两种方式
一、使用反射的方式 这种方式是使用反射的方式,用反射去推倒出来RDD里面的schema,也就是根据包括case class数据的RDD转换成DataFrame,这个方式简单,在已知schema的时候非常方便def main(args: Array[String]): Unit = {val spark = SparkSession.builder().appName("TopNStat...原创 2019-03-28 20:46:38 · 1345 阅读 · 0 评论 -
Spark实战(十)sparkSQL保存至数据库三种方式
一、当需保存各字段确定时 在spark官方文档上给出了几种保存数据至数据库的方式,在字段确定时使用非常方便,代码如下:## 读取数据val jdbcDF = spark.read .format("jdbc") .option("url", "jdbc:postgresql:dbserver") .option("dbtable", "schema.tablename")...原创 2019-04-02 09:49:04 · 3036 阅读 · 0 评论 -
Spark实战(八)spark的几种启动方式
spark常用的启动方式一、Local(本地模式) Spark单机运行,一般用于开发测试。可以通过Local[N]来设置,其中N代表可以使用N个线程,每个线程拥有一个core。如果不指定N,则默认是1个线程(该线程有1个core)。spark-submit 和 spark-submit --master local 效果是一样的,同理spark-shell 和 spark-shell --...原创 2019-02-18 11:04:20 · 4515 阅读 · 1 评论 -
Spark实战(七)spark streaming +kafka(Python版)
一、ZooKeeper集群搭建(一)、集群部署的基本流程 下载安装包、解压安装包、修改配置文件、分发安装包、启动集群(二)、ZooKeeper集群搭建1、下载安装包 去官网下载zookeeper压缩包2、解压安装包 tar -zxvf zookeeper-3.4.12.tar.gz解压并重命名为zookeeper3、修改配置文件cd zookeeper/confcp...原创 2019-01-17 09:17:27 · 3410 阅读 · 0 评论 -
Spark实战(五)spark streaming + flume(Python版)
一、flume安装(一)概述 Flume是一个分布式、可靠、和高可用的海量日志采集、聚合和传输的系统。Flume可以采集文件,socket数据包等各种形式源数据,又可以将采集到的数据输出到HDFS、hbase、hive、kafka等众多外部存储系统中,一般的采集需求,通过对flume的简单配置即可实现, Flume针对特殊场景也具备良好的自定义扩展能力,因此,flume可以适用于大部分的...原创 2019-01-10 10:58:13 · 2106 阅读 · 1 评论 -
Spark实战(四)spark+python快速入门实战小例子(PySpark)
一、flume安装(一)概述 Flume是一个分布式、可靠、和高可用的海量日志采集、聚合和传输的系统。Flume可以采集文件,socket数据包等各种形式源数据,又可以将采集到的数据输出到HDFS、hbase、hive、kafka等众多外部存储系统中,一般的采集需求,通过对flume的简单配置即可实现, Flume针对特殊场景也具备良好的自定义扩展能力,因此,flume可以适用于大部分的...原创 2019-01-10 10:55:53 · 16572 阅读 · 1 评论 -
Spark实战(六)spark SQL + hive(Python版)
一、hive环境准备1、安装hive 按照hive安装步骤安装好hiveCREATE USER 'spark'@'%' IDENTIFIED BY '123456';GRANT all privileges ON hive.* TO 'spark'@'%';flush privileges;2、环境配置 将配置好的hive-site.xml放入$SPARK-HOME/...原创 2019-01-10 13:54:29 · 9544 阅读 · 0 评论 -
Spark实战(三)本地连接远程Spark(Python环境)
一、Python环境准备 远程服务器上Python版本要与本地想匹配,这里本地使用Anaconda来进行安装,远程服务器之间安装。wget --no-check-certificate https://www.python.org/ftp/python/3.6.7/Python-3.6.7.tgztar -zxvf Python-3.6.7.tgz sudo ./configure -...原创 2018-12-25 09:51:29 · 9869 阅读 · 2 评论 -
Spark实战(二)Spark常用算子
一、算子分类 从大方向来说,Spark 算子大致可以分为以下两类: 1)Transformation 变换/转换算子:这种变换并不触发提交作业,完成作业中间过程处理。 Transformation 操作是延迟计算的,也就是说从一个RDD 转换生成另一个 RDD 的转换操作不是马上执行,需要等到有 Action 操作的时候才会真正触发运算。 2)Action 行动算...原创 2018-12-13 17:57:25 · 1536 阅读 · 0 评论 -
Spark面试常见问题(一)--RDD基础
1 RDD基础知识1.1 Spark的RDD五大特性1.1.1 A list of partitions RDD是一个由多个partition(某个节点里的某一片连续的数据)组成的的List;将数据加载为RDD时,一般一个hdfs里的block会加载为一个partition。 对于RDD来说,每个分片都会被一个计算任务处理,并决定并行计算的粒度。用户可以在创建RDD时指定RDD的分片...原创 2019-05-14 15:48:25 · 1650 阅读 · 0 评论