spark
文章平均质量分 93
spark
矛始
好记性 + 烂笔头
展开
-
Spark序列化 & Encoders
spark序列化方式分布式的程序存在着网络传输,无论是数据还是程序本身的序列化都是必不可少的。spark自身提供两种序列化方式:java序列化:这是spark默认的序列化方式,使用java的ObjectOutputStream框架,只要是实现了java.io.Serializable接口的类都可以,这种方式虽然通用但是性能差,占用的空间也比较大kryo序列化:相比于java序列化,kryo更高效且序列化结果紧凑,占用空间小,但是不能序列化所有数据类型,且为更好的性能,需要在程序中注册需要序列化的类原创 2022-02-12 12:56:05 · 10755 阅读 · 0 评论 -
Spark数据格式UnsafeRow
1. 简介UnsafeRow是InternalRow的子类,它表示一个可变的基于原始内存(raw-memory)的二进制行格式,简单来说UnsafeRow代表一行记录,用于替代java对象(属于Tungsten计划的一部分,可以减少内存使用以及GC开销)InternalRow:spark sql内部使用的表示行的抽象类,对应表示输出的行有org.apache.spark.sql.Row/GenericRow/GenericRowWithSchema2. 类属性private Object base原创 2022-01-14 12:49:22 · 8560 阅读 · 2 评论 -
Spark统一内存划分
文章目录executor内存逻辑架构Executor 界面内存计算UnrollMemory理解参考executor内存逻辑架构堆内存,由JVM分配和回收,由spark.executor.memory控制大小,JVM中序列化的对象是以字节流形式,其占用内存大小可直接计算,对于非序列化对象,其占用的内存是通过周期性地采样近似估算,且被spark标记为释放的对象实例也有可能并没有被JVM回收,所以spark并不能准确记录实际可用堆内存,也就无法避免内存溢出非堆内存,不受JVM管理,有两部分,其中一部分通原创 2022-01-06 11:29:08 · 8478 阅读 · 0 评论 -
编译spark1.6.1源码
正常的情况下从spark官方网站下载的发行包已经可以满足正常使用(默认支持了hive),但如果要编译相应cdh版本的hadoop或者把ganglia打包进来等,那就要重新指定编译参数来重新编译源码了。建议最好在linux环境下进行编译。源码下载官网下载地址:https://spark.apache.org/downloads.html注意:源码放置目录最好不要存在中文路径安装并配置maven根据官网原创 2016-10-28 16:41:30 · 9061 阅读 · 0 评论 -
Ganglia监控spark1.6.1
Spark的Metrics系统允许用户把Spark metrics信息报告到Ganglia,gmond服务收集metrics信息,最后统一汇总到gmetad并通过web界面呈现。主要着重于如何配置ganglia以及spark的metrics,至于如何编译spark支持ganglia以及ganglia的安装另行详述。编译spark支持gangliaspark默认不把ganglia相关的类包含在发行包中原创 2016-10-28 16:33:09 · 9101 阅读 · 3 评论 -
spark-streaming状态流之mapWithState
背景刚接触spark-streaming,然后写了一个WordCount程序,对于不停流进来的数据,需要累加单词出现的次数,这时就需要把前一段时间的结果持久化,而不是数据计算过后就抛弃,在网上搜索到spark-streaming可以通过updateStateByKey和mapWithState来实现这种有状态的流管理,后者虽然在spark1.6.x还是一个实验性的实现,不过由于它的实现思想以及性能都...原创 2017-01-24 10:04:53 · 22992 阅读 · 12 评论 -
spark1.6.1集群部署(standalone)
1. 节点准备192.168.137.129 spslave2192.168.137.130 spmaster192.168.137.131 spslave12. 修改主机名3. 配置免密码登录首先到用户主目录(cd ~),ls -a查看文件,其中一个为“.ssh”,该文件价是存放密钥的。待会我们生成的密钥都会放到这个文件夹中。现在执行命令生成密钥:ssh-keygen -t rsa -原创 2017-08-04 19:43:23 · 7344 阅读 · 0 评论 -
hive on spark部署
d原创 2018-06-07 09:39:53 · 10509 阅读 · 0 评论 -
spark TF-IDF特征提取生成文章关键词
欢迎使用Markdown编辑器写博客本Markdown编辑器使用StackEdit修改而来,用它写博客,将会带来全新的体验哦:Markdown和扩展Markdown简洁的语法代码块高亮图片链接和图片上传LaTex数学公式UML序列图和流程图离线写博客导入导出Markdown文件丰富的快捷键快捷键加粗 Ctrl + B 斜体 Ctrl + I......原创 2018-07-18 16:03:34 · 11137 阅读 · 35 评论