Spark
文章平均质量分 73
我就算饿死也不做程序员
欢迎关注同名公众号:"我就算饿死也不做程序员"。
交个朋友,一起交流,一起学习,一起进步。
展开
-
pyspark打包依赖包&使用python虚拟环境
一、anaconda创建python环境anaconda创建python环境在这篇博客中,已经很清楚地描述了如何通过anaconda来创建你需要的python环境:即合适的python版本和包含你需要的依赖包。二、打包python环境假设我们的python环境名称为py_env,那么在anaconda的安装目录下,envs/py_env在Windows下,直接将使用压缩软件,将其压缩为zip文件;在Linux下,zip py_env.zip py_env。(必须py_env文件夹所在的目录下执行原创 2021-03-10 22:18:18 · 7960 阅读 · 13 评论 -
pyspark融入pandas的优势,真香!
近期,在使用spark的时候,发现spark在python下的使用,pyspark还挺好用的。你甚至可以把它当作pandas来使用,众所周知,pandas在数据处理方面是很强大的,不谈性能,它提供了许多的内置方法,非常的方便,极大的减少我们的开发时间。下面,简答来得展示一下它的具体使用。首先,我们初设一个SparkSession,并开启pandas的支持:Pandas with Apache Arrow;接着,简单的新建一个spark的DataFrame对象:df。import pandas as原创 2021-02-28 14:13:12 · 4439 阅读 · 0 评论 -
Spark在本地环境进行yarn模式的提交
一般来说,spark on yarn是将spark程序的jar包上传至服务器,然后通过spark-submit的方式。但是,相信很多人不是一次性就能写没有bug的spark代码,都有反复调试的需求,那么,上述方式的调试效率就很低了,所以,最好的方法还是能够在本地进行yarn的提交。实现代码废话不多说,先献上代码import org.apache.spark.{SparkConf, SparkContext}class SparkYarn extends Serializable { d原创 2021-02-28 12:45:26 · 1405 阅读 · 1 评论 -
Spark连接Hive,进行Hive数据表的读写操作
基础环境Hadoop安装-1,hadoop安装-2spark安装Hive安装配置将Hive的conf目录下的hive-site-xml文件拷贝到spark的conf目录下;将Hive中的mysql驱动包(mysql-connector-java-8.0.22.jar,根据自己mysql的版本进行选择)也拷贝到spark的jars目录下;spark-shell当完成了上面的步骤之后,在spaek-shell中,就可以访问hive了。import org.apache.spark.sq原创 2021-02-27 10:52:12 · 1755 阅读 · 0 评论 -
Spark Streaming后台挂载运行&异常监控并重启
后台挂载spark-streaming程序我们在x-shell中通过yarn-client的方式提交spark-streaming程序时,会存在一个小问题:如果中断程序的运行或者将x-shell窗口关闭,spark-streaming程序也会中断。为了解决这个问题,我们可以使用以下脚本命令命令:nohup /opt/client/hdclient/Spark2x/spark/bin/spar...原创 2020-01-13 23:01:07 · 1142 阅读 · 0 评论 -
Spark Streaming监听Socket解决自动断开连接
Spark Streaming与Socket我们在使用Spark Streaming的实时计算功能的时候,有时候会与Socket进行通信,即通过Spark Streaming监听Socket,实时获取从Socket发送的数据进行处理。但最近发现一个坑:Socket如果客户端与服务端之间有一段时间没有进行通信,即客户端与服务端之间相互没有进行数据传输,那么客户端与服务端的连接就会自动断开。参考...原创 2019-12-26 21:03:40 · 899 阅读 · 0 评论 -
Spark通过Scan的API读取HBase表限定范围的数据
在这篇博客中Spark对HBase进行数据的读写操作,我通过代码说明如何通过Spark对HBase表的数据进行读取并转化为RDD。但是,这种方式只能是进行全表读取,那如果我们只想读取一部分的数据,应该如何实现呢?通过hbase shell中的scan方法的API,设置起始行和结束行,对限定范围的数据进行扫描转化为RDDimport java.text.SimpleDateFormat;i...原创 2019-10-22 20:58:59 · 2515 阅读 · 0 评论 -
spark sql和jdbc将数据写入mysql的对比
目录jdbcspark sql引用的库类效率对比连接mysql错误jdbcpublic static void jdbc() { // test为数据库名,spark为表名 final String url = "jdbc:mysql://localhost:3306/test"; final String username = "root"; final String pas...原创 2019-10-09 20:58:18 · 1260 阅读 · 0 评论 -
spark读取HBase数据的一次坑爹经历
首先,在这里说明一下,我遇到的错误如下:org.apache.hadoop.hbase.DoNotRetryIOException:/192.168.x.x:16020 is unable to read call parameter from client 10.47.x.x然后,spark读取HBase...原创 2019-09-29 21:21:20 · 1404 阅读 · 2 评论 -
Spark学习笔记(一):Scala基本语法
Scala是一门多范式的编程语言,一种类似java的编程语言 ,设计初衷是实现可伸缩的语言 、并集成面向对象编程和函数式编程的各种特性。变量val str = "a" // val声明不可变变量(指向指针不可变),不可重新赋值,必须初始化 var str : String = "a" // var声明可变变量,指定String类型 val str : java.lang.String = ...原创 2019-08-16 21:54:11 · 466 阅读 · 0 评论 -
Spark学习笔记(四):SparkStreaming实现实时计算
SparkStreaming是Spark的一个流式计算框架,它支持对许多数据源进行实时监听,例如Kafka, Flume, Kinesis, or TCP sockets,并实现实时计算的能力,但准确来说应该是伪实时,因为它的基本原理就是定时接收数据流,然后将其转化为许多量小的RDD集合,然后对其进行计算汇总,如下图:SparkStreaming的流式计算其实可以分为很多种类,让我们一步步分开...原创 2019-08-16 21:43:27 · 1265 阅读 · 0 评论 -
Spark学习笔记(三):SparkStreaming实现对文件夹和socket的监听
SparkStreaming是Spark的一个流式计算框架,它支持对许多数据源进行实时监听,例如Kafka, Flume, Kinesis, TCP sockets,甚至文件夹,并实现实时计算的能力。对文件夹的监听def fileStreaming(): Unit ={ /** * 监听文件夹的新增文件内容 */ // 至...原创 2019-08-15 21:36:47 · 998 阅读 · 0 评论 -
Spark学习笔记(五):Spark运行模式原理
基本概念RDD:是Resillient Distributed Dataset (弹性分布式数据集)的简称,是分布式内存的一个抽象概念,提供了一种高度受限的共享内存模型DAG:是Directed Acyclic Graph (有向无环图)的简称,反映RDD之间的依赖关系Executor:是运行在工作节点(WorkerNode)的一个进程,负责运行TaskApplication:用户编写的...原创 2019-08-20 20:58:22 · 626 阅读 · 0 评论 -
spark+hbase+kafka+zookeeper集群一条龙搭建教程
hadoop集群搭建教程:Hadoop集群搭建教程(一)Hadoop集群搭建教程(二)Spark集群官网下载:spark官网这里要注意spark兼容的hadoop版本接着解压:tar -zxvf spark-2.4.3-bin-hadoop2.7.tgz先在你的master节点进行spark的安装和配置,然后直接拷贝到其他节点就可以了。cd /usr/loca/spark/co...原创 2019-07-27 14:36:27 · 1083 阅读 · 0 评论 -
Spark对HBase进行数据的读写操作
读取HBase数据通过newAPIHadoopRDD这个API构建读取的RDDdef read(): Unit = { val conf = HBaseConfiguration.create() val sparkConf = new SparkConf().setMaster("local").setAppName("HBase") val ...原创 2019-07-21 18:20:44 · 927 阅读 · 0 评论 -
Spark学习笔记(二):RDD常用操作
keys、valuessortByKey按照键值对的key进行排序。false表示降序排序,默认为true,表示升序排序sortBy按照自定义lambda表达式的输出进行排序mapValuesjoin...原创 2019-07-21 18:03:56 · 189 阅读 · 0 评论 -
Windows下IDEA运行scala版本的spark程序(踩坑总结)
IDEA和scala的安装配置hadoop和spark安装配置WordCount程序无法新建scala类创建了一个Scala的sbt项目,但是在点击右键——new——的时候,没有Scala Class这个选项,怎么办?选择你的项目,然后点击右键——Project Structure——Libraries,接着点击+,选择Scala SDK,最后选择你的scala版本就可以了。运行报错...原创 2019-06-27 20:42:27 · 4570 阅读 · 0 评论