scala
文章平均质量分 75
影密卫
这个作者很懒,什么都没留下…
展开
-
Scala中isInstanceOf 和 asInstanceOf
如果实例化了子类的对象,但是将其赋予了父类类型的变量,在后续的过程中,又需要将父类类型的变量转换为子类类型的变量,应该如何做?Ø 首先,需要使用isInstanceOf 判断对象是否为指定类的对象,如果是的话,则可以使用 asInstanceOf 将对象转换为指定类型;Ø 注意:p.isInstanceOf[XX] 判断 p 是否为 XX 对象的实例;p.asInstanceOf...原创 2018-05-15 16:28:22 · 30630 阅读 · 5 评论 -
combineByKey的使用
combineByKey的使用def combineByKey[C](createCombiner: (V) => C, mergeValue: (C, V) => C, mergeCombiners: (C, C) => C): RDD[(K, C)]def combineByKey[C](createCombiner: (V) => C, mergeValu...原创 2018-07-25 14:14:12 · 3064 阅读 · 0 评论 -
scala spark 对hdfs文件的操作
1.读取文件打印(获取)HDFS路径下所有的文件名(包括子目录下的)2018-11-20Scala HDFS前言自己有个需求,如题,需要获取HDFS路径下所有的文件名,然后根据文件名用Spark进行后续操作。想了一下用Spark好像不太容易获取到,还要递归的去获取子目录下的文件名,于是查了一下,最后用Hadoop的API搞定,这里记录下,方便以后会用到。1、数据测试路径...转载 2019-02-13 10:55:24 · 6481 阅读 · 0 评论 -
rdd踩坑总结
1、常用场景(1)场景一:rdd读取指定行分隔符的数据,不以每行为单位例1:配置文件中有n个sql语句,每个sql以分号----分隔。你需要读取sql,分别从hdfs中拉取数据。可能会采取://conf_sql_map_file 是sql配置文件val sql_rdd = sc.textFile(conf_sql_map_file)var sqls = sql_rdd.collect().mk...原创 2019-07-12 17:02:43 · 1005 阅读 · 0 评论 -
Spark入门:从RDD转换得到DataFrame
Spark官网提供了两种方法来实现从RDD转换得到DataFrame,第一种方法是,利用反射来推断包含特定类型对象的RDD的schema;第二种方法是,使用编程接口,构造一个schema并将其应用在已知的RDD上。利用反射机制推断RDD模式在利用反射机制推断RDD模式时,需要首先定义一个case class,因为,只有case class才能被Spark隐式地转换为DataFrame。下...原创 2019-07-12 17:04:37 · 1006 阅读 · 0 评论