spark
Bonyin
这个作者很懒,什么都没留下…
展开
-
spark官网中的闭包的解释。。。。
spark官网的地址:http://spark.apache.org/docs/latest/rdd-programming-guide.html#resilient-distributed-datasets-rdds理解闭包(closure)Spark的难点之一是在跨集群执行代码时理解变量和方法的范围和生命周期。修改变量范围之外的RDD的操作常常会引起混乱,难以理解。在下面的示例中,我们...原创 2018-07-18 00:03:47 · 744 阅读 · 0 评论 -
spark调优的相关总结
1、reduce task OOM? 增大reduce端的聚合操作的内存比例 增大executor memory 内存大小 --executor-memory 减少reduce task每次拉取的数据量 设置spark.reducer.maxSizeInFlight参数2、在shuffle阶段executor挂掉? 分析...原创 2018-12-19 15:11:36 · 974 阅读 · 2 评论 -
Sparksql操作的案例应用。。。。
sparkSql的使用案例。。。。。1、创建DataFrameval rdd = sc.makeRDD(List((1,“zhang”,19,“bj”,1000000), (2,“wang”,29,“sh”,100),(3,“li”,49,“sz”,999)));val df = rdd.toDF(“id”,“name”,“age”,“addr”,“salary”);df.show()...原创 2018-10-16 23:46:32 · 589 阅读 · 0 评论 -
spark-submit 提交任务报错 java.lang.ClassNotFoundException: Demo02
案例:把sparksql的程序提交到spark的单机模式下执行package demo01import org.apache.spark.SparkContextimport org.apache.spark.sql.SQLContextimport org.apache.spark.SparkConfobject Demo02 { def main(args: Array...原创 2018-10-16 18:56:29 · 8141 阅读 · 8 评论 -
spark的RDD的详解。。。。
Resilient Distributed Dataset(RDD),弹性分布式数据集,是Spark上的一个核心抽象,表示用于并行计算的,不可修改的,对数据集合进行分区的分布式的数据结构。不同来源的数据 都可以经过转换变为RDD 再由Spark进行处理。 这个数据集的全部或部分可以缓存在内存中,在多次计算间重用。它是spark提供的一个特殊集合类。普通的集合数据作为一个整体,但RD...原创 2018-10-16 11:09:49 · 190 阅读 · 0 评论 -
spark的调优总结。。。后续遇到问题在及时更新。。。。
1、reduce task OOM? 增大reduce端的聚合操作的内存比例 增大executor memory 内存大小 --executor-memory 减少reduce task每次拉取的数据量 设置spak.reducer.maxSizeInFlight参数2、在sh...原创 2018-10-15 22:34:16 · 1195 阅读 · 1 评论 -
spark有没有什么缺点。。
spark的缺点其实就是的它的优点所带来的问题。目前Spark主要存在哪些缺点?(a) JVM的内存overhead太大,1G的数据通常需要消耗5G的内存 -> Project Tungsten 正试图解决这个问题;(b) 不同的spark app之间缺乏有效的共享内存机制 -> Project Tachyon 在试图引入分布式的内存管理,这样不同的spark app可以共享缓...转载 2018-09-27 21:57:26 · 5158 阅读 · 0 评论 -
在spark-2.2.x中操作hive的表数据的流程
环境:centos6.5 hadoop 伪分布式 ,spark 伪分布式 安装hive 在window下面。在idea中,通过程序去操作hive中的表。 需要把linux上面spark安装目录下面/conf里面的hive-site.xml的文件放到window下面idea中当前project中 的resources文件夹下面。并且配置log4j.properties文件。方便...原创 2018-09-12 09:50:34 · 1645 阅读 · 0 评论 -
spark2.2.1+hadoop2.7.1伪分布式安装
环境说明:jdk1.8+scala.2.11.8+spark2.2.1+hadoop.2.7.1spark2.2.1伪分布式安装说明: 首先要安装好jdk+hadoop+scala下载。上传、解压配置spark/conf/spark-env.sh 记得先把原始文件copy一份 cp spark-env.sh.temple spark-env.shvim spark-env...原创 2018-08-16 08:58:38 · 1142 阅读 · 0 评论 -
spark2.0之后的Dataset官网信息翻译。。。
创建一个DataSet(数据集)但是,数据集类似于RDDs,它们不使用Java序列化或Kryo(官方文档的地址https://github.com/EsotericSoftware/kryo/blob/master/README.md),而是使用专门的编码器对对象进行序列化,以便通过网络进行处理或传输。尽管编码器和标准序列化都负责将对象转换成字节,编码器是动态生成的代码,并使用允许Spark执...原创 2018-07-20 23:59:37 · 267 阅读 · 0 评论 -
win10本地运行spark2.0程序java.io.IOException: Could not locate executable null\bin\winutils.exe in the
windows下运行hadoop的程序报错java.io.IOException: Could not locate executable null\bin\winutils.exe in the Hadoop binaries.这是因为windows环境变量不兼容的原因.解决办法:下载winutils地址https://github.com/srccodes/hadoop-commo...原创 2018-07-19 23:52:01 · 621 阅读 · 0 评论 -
Spark配置redis的jar包
在Maven 工程下面,spark-redis的jar包在maven的仓库里面没有,所以需要我们自己去下载第三方的jar包,来添加到自己的maven工程里面去。1、下载spark-redis.jar 的链接:https://spark-packages.org/package/RedisLabs/spark-redis2、在pom文件里面首先配置spark-redis.接下在在命令行执行:mvn ...原创 2018-07-13 18:50:09 · 1647 阅读 · 0 评论 -
关于Spark性能调优的一些观点
spark是一个基于内存的计算框架。它集成了离线批处理,sql类处理,实时处理/流式计算、机器学习和图计算计算模式。所以spark程序的优化对于spark执行效率来说是非常的重要的。1、1 开发调优开发调优首先需要了解一些spark开发的基本设计原则:(1)RDD lineage 设计;(2)算子的合理使用;(3)特殊的操作使用;在实际开发中需要结合自己的业务,来合理、灵活的开发程序;...原创 2018-07-18 14:16:06 · 218 阅读 · 0 评论 -
成功实现了:Hive-2.3.2 on spark-2.0.0 编译安装配置-详细流程
首先说明一下hive on spark的版本信息:jdk-1.8.0scala-2.11.8apache-hive-2.3,2.tar.gzHadoop-2.7.1spark-2.0.0-srcmaven-3.6.0 注意需要配置maven源(最好配置国内源信息,这样下载会比较快) 下面的配置信息是在maven/conf/settings文件的160行的位置加入。...原创 2018-12-24 16:03:41 · 2511 阅读 · 3 评论