spark
文章平均质量分 78
影密卫
这个作者很懒,什么都没留下…
展开
-
Scala中isInstanceOf 和 asInstanceOf
如果实例化了子类的对象,但是将其赋予了父类类型的变量,在后续的过程中,又需要将父类类型的变量转换为子类类型的变量,应该如何做?Ø 首先,需要使用isInstanceOf 判断对象是否为指定类的对象,如果是的话,则可以使用 asInstanceOf 将对象转换为指定类型;Ø 注意:p.isInstanceOf[XX] 判断 p 是否为 XX 对象的实例;p.asInstanceOf...原创 2018-05-15 16:28:22 · 30706 阅读 · 5 评论 -
spark中的println失效问题解决
object PrintUtiltity { def print(data:String) = { println(data) }}它为什么有效?因为Spark认为它正在调用Utility函数而不是调用print函数。Spark显然没有(实际上也没有)检查其效用函数中的每一行。...原创 2019-08-30 16:11:17 · 848 阅读 · 0 评论 -
mysql清空表命令:delete和truncate区别
mysql清空表可以用delete和truncate两个命令来完成: 1. delete ① 语法:delete from table_name; ② 示例:DELETE FROM `order`; 2. truncate ① 语法:truncate table table_name; ② 示...原创 2019-08-27 18:42:43 · 509 阅读 · 0 评论 -
error:value reduceByKey is not a member of Array[(String, Int)]
Scala报错value reduceByKey is not a member of Array[(String, Int)]1.原因在于在spark中,使用scala编程时,没有使用pairRDD2.错误代码示例:val book = Array(("spark",2),("hadoop",6),("hadoop",4),("spark",6))val result = boo...原创 2019-07-12 16:54:56 · 1934 阅读 · 0 评论 -
Spark入门:从RDD转换得到DataFrame
Spark官网提供了两种方法来实现从RDD转换得到DataFrame,第一种方法是,利用反射来推断包含特定类型对象的RDD的schema;第二种方法是,使用编程接口,构造一个schema并将其应用在已知的RDD上。利用反射机制推断RDD模式在利用反射机制推断RDD模式时,需要首先定义一个case class,因为,只有case class才能被Spark隐式地转换为DataFrame。下...原创 2019-07-12 17:04:37 · 1030 阅读 · 0 评论 -
rdd踩坑总结
1、常用场景(1)场景一:rdd读取指定行分隔符的数据,不以每行为单位例1:配置文件中有n个sql语句,每个sql以分号----分隔。你需要读取sql,分别从hdfs中拉取数据。可能会采取://conf_sql_map_file 是sql配置文件val sql_rdd = sc.textFile(conf_sql_map_file)var sqls = sql_rdd.collect().mk...原创 2019-07-12 17:02:43 · 1024 阅读 · 0 评论 -
yarn spark 动态调整队列
1.3 MapReduce版本:hadoop jar app.jar -D mapreduce.job.queuename=root.etl.distcp -D mapreduce.job.priority=HIGH2、动态调整如果是已经在运行中的任务,可以动态调整任务所属队列及其优先级。2.1 调整优先级hadoop1.0及以下版本:hadoop job -set...原创 2019-03-07 10:44:13 · 2986 阅读 · 0 评论 -
scala spark 对hdfs文件的操作
1.读取文件打印(获取)HDFS路径下所有的文件名(包括子目录下的)2018-11-20Scala HDFS前言自己有个需求,如题,需要获取HDFS路径下所有的文件名,然后根据文件名用Spark进行后续操作。想了一下用Spark好像不太容易获取到,还要递归的去获取子目录下的文件名,于是查了一下,最后用Hadoop的API搞定,这里记录下,方便以后会用到。1、数据测试路径...转载 2019-02-13 10:55:24 · 6506 阅读 · 0 评论 -
spark submit参数调优
在开发完Spark作业之后,就该为作业配置合适的资源了。Spark的资源参数,基本都可以在spark-submit命令中作为参数设置。很多Spark初学者,通常不知道该设置哪些必要的参数,以及如何设置这些参数,最后就只能胡乱设置,甚至压根儿不设置。资源参数设置的不合理,可能会导致没有充分利用集群资源,作业运行会极其缓慢;或者设置的资源过大,队列没有足够的资源来提供,进而导致各种异常。总之,无论是哪...转载 2018-08-01 10:28:39 · 487 阅读 · 0 评论 -
spark-submit 参数设置说明
原文:https://intl.aliyun.com/help/zh/doc-detail/28124.htm本章节将介绍如何在 E-MapReduce 场景下设置 spark-submit 的参数。集群配置软件配置E-MapReduce 产品版本 1.1.0 Hadoop 2.6.0 Spark 1.6.0 硬件配置Master 节点 8 核 ...转载 2018-08-01 09:27:25 · 1565 阅读 · 0 评论