Spark
文章平均质量分 50
铁头乔
公众号:铁头乔
展开
-
java实现RDD算子
spark基础与java api介绍http://www.cnblogs.com/tovin/p/3832405.html textFile: 可将本地文件或HDFS文件转换成RDD,读取本地文件需要各节点上都存在,或者通过网络共享该文件 JavaRDD lines =原创 2017-01-03 13:32:30 · 6206 阅读 · 0 评论 -
Parquet 编码方式
虽然 Parquet 的文档里写了很多编码方式 (https://github.com/apache/parquet-format/blob/master/Encodings.md ),但实际上 Parquet 只支持两种编码:Delta Encoding,Dictionary Encoding。而且不能一起使用。(https://issues.apache.org/jira/browse/PAR...原创 2019-05-16 18:55:01 · 2441 阅读 · 5 评论 -
Parquet 查询流程
总体流程:根据用户给定的 Filter,先对文件中所有 RowGroup (Block) 过滤一遍,留下满足要求的 RowGroup。对这些 RowGroup 中涉及到的所有 Chunk 都读出来,对其中的 Page 一个一个解压缩,拼成一个一个 Record,再进行过滤。细节:不管一个 page 是否满足条件,都会被反序列化。将多个 page 的东西拼成一个 record,并进行过滤,过...原创 2019-05-15 21:14:19 · 1699 阅读 · 0 评论 -
Spark:java.lang.ClassCastException
Spark程序运行中可能会遇到这个异常:Caused by: cannot assign instance of scala.collection.immutable.List$SerializationProxy to field org.apache.spark.rdd.RDD.org$apache$spark$rdd$RDD$$dependencies_ of type scala.co...原创 2018-06-22 15:17:00 · 6598 阅读 · 2 评论 -
Spark:Initial job has not accepted any resources
我在本地写了个 Spark 的 Driver,运行 local 模式没问题,当把 master 改成了远程的 spark://ip:7077 就会卡主,报下面这个 WARN:Initial job has not accepted any resources; check your cluster UI to ensure that workers are registered and ...原创 2018-06-22 11:00:42 · 1078 阅读 · 0 评论 -
在本地将spark作业运行到远程集群
在本地IDE里直接运行spark程序操作远程集群一般运行spark作业的方式有两种:本机调试,通过设置master为local模式运行spark作业,这种方式一般用于调试,不用连接远程集群。集群运行。一般本机调试通过后会将作业打成jar包通过spark-submit提交运行。生产环境一般使用这种方式。本文介绍第3种方式:在本地将spark作业运行到远程集群中。这种方式比较少见,很多人认为不可原创 2017-02-25 13:33:18 · 13430 阅读 · 5 评论 -
Spark集群部署流程
首先配置hadoop集群完成之后下载spark2.0.1-hadoop-1.6.0编译好的解压缩,上传到master节点配置 Sparkcd ~/workspace/spark-1.3.0/conf #进入spark配置目录cp spark-env.sh.template spark-env.sh #从配置模板复制vi spark-env.sh #添加配置内容在spark-env.原创 2016-12-30 13:49:51 · 411 阅读 · 0 评论 -
使用Spark MLLib的PrefixSpan算法示例代码
http://spark.apache.org/docs/latest/mllib-frequent-pattern-mining.htmlPrefixSpanimport java.util.Arrays;import java.util.List;import org.apache.spark.mllib.fpm.PrefixSpan;import org.apache.spark.ml原创 2016-12-30 13:49:53 · 2050 阅读 · 0 评论 -
spark基础
RDD操作详解1——Transformation和Actions概况http://www.jianshu.com/p/4ff6afbbafe4 Spark Programming Guide(比较好)http://spark.apache.org/docs/latest/programming-guide.html#tab_java_0 Spark编程指引(三)原创 2016-12-30 13:49:18 · 383 阅读 · 0 评论 -
Spark程序常见问题
在eclipse中运行时提示A master URL must be set in your configuration在VM arguments里添加 -Dspark.master=local 解决了内存溢出-Xms512m -Xmx512m写spark插件,插件中使用slf4j日志框架 在cli运行时打印不出来原原创 2017-01-03 14:42:42 · 660 阅读 · 0 评论 -
ORC 查询流程
ORC 文件格式ORC 文件分成多个 Stripe,每个 Stripe 里包括这个文件所有列的一部分数据,每个 Stripe 中的各个列的点数都一样,是可以对齐的。只在 RowGroup 层做过滤,每个 RowGroup 默认有 10000 行元组。过滤完一个 RowGroup 就都读出来了。十分粗粒度,不能保证读出来的每一行都满足条件。ORC 读取流程OrcFile.createRead...原创 2019-05-17 20:50:14 · 1130 阅读 · 0 评论