scala的常用

Spark中的DataFrame的getAs方法如果取到的值是null的处理结果

我遇到的两种情况吧
val DF = hc.sql("...............")
val rdd = DF.rdd.map{
row =>
val label = row.getAs[Int]("age")
}

1,如果getAs[Integer]("age")那么null值被拿出来依然为null

2,如果getAs[Int]("age")则 label = 0(本以为要报错的才对)
  def getAs[T](fieldName: String): T = getAs[T](fieldIndex(fieldName))

建议:如果null不是你想的数据建议在SQL阶段就将其过滤掉
补充一点Java的成员变量和局部变量的知识

成员变量与局部变量的联系与区别:
a)无论是成员变量还是局部变量,使用前都需要声明( 定义)。
b) 对于局部变量来说,使用前必须要初始化;对于成员变量来说,使用前可以不初始化。如果没有初始化成员变量就开始使用,那么每个类型的成员变量都有一个默认的初始值
  i. byte、short、int、long 类型的初始值为 0
  ii. float、 double 类型的初始值为 0.0
  iii. char 类型的初始值'\u0000'
  iv. boolean 类型的初始值为 false

 
mkString(seq:String)方法是将原字符串使用特定的字符串seq分割。
mkString(statrt:String,seq:String,end:String)方法是将原字符串使用特定的字符串seq分割的同时,在原字符串之前添加字符串start,在其后添加字符串end。

 
def grouped (size :int)  ==  def sliding(size:Inr,size:Int)
 
repartition(numPartitions, *cols) 重新分区,用于分区数变多,设置变小一般也只是action算子时才开始shuffing;而且当参数numPartitions小于当前分区个数时会保持当前分区个数等于失效
 
partitionBy(*cols) 根据指定列进行分区,相似的在一个区,并没有参数来指定多少个分区,而且仅用于PairRdd 
 
coalesce(numPartitions) 联合分区,用于将分区变少。不能指定按某些列联合分区
 
 coalesce:不需要shuffle, 最大线程数,并行度受分区数的影响,如果合并成的分区数过少,可以采用repartition

def coalesce(numPartitions: Int): Dataset[T] = withTypedPlan {
  Repartition(numPartitions, shuffle = false, logicalPlan)
}
 repartition: 需要进行shuffle,并行度很高.扩大分区的时候使用,还有就是在合并分区过少的时候使用,以免影响并行度

def repartition(numPartitions: Int): Dataset[T] = withTypedPlan {
  Repartition(numPartitions, shuffle = true, logicalPlan)
}

Hive 不支持 where 子句中的子查询, SQL 常用的 exist in 子句需要改写
 
 DataFrame对象groupby.agg方法
 groupby为对原DataFrame进行打包分组,agg为聚合(其操作包括max、min、std、sum、count)。
 
 
 greatest(col_a, col_b, ..., col_n)比较n个column的大小,过滤掉null,
 但是当某个column中是string,而其他是int/double/float等时,返回null
 
 
 千万注意 DF.limit(0).count() 实际是一行都不选


匹配
object RegularExpressOps {
 def main(args:Array[String]):Unit={
 val regex="""([0-9]+)([a-z]+)""".r//"""原生表达
 val numPattern="[0-9]+".r
 val numberPattern="""\s+[0-9]+\s+""".r
 //findAllIn()方法返回遍历所有匹配项的迭代器
 for(matchString <- numPattern.findAllIn("99345 Scala,22298 Spark"))
  println(matchString)
 //找到首个匹配项
 println(numberPattern.findFirstIn("99ss java, 222 spark,333 hadoop"))
 //数字和字母的组合正则表达式
 val numitemPattern="""([0-9]+) ([a-z]+)""".r
 val numitemPattern(num, item)="99 hadoop"
 val line="93459h spark"
 line match{
  case numitemPattern(num,blog)=> println(num+"\t"+blog)
  case _=>println("hahaha...")

 

  • 2
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值