spark&scala集合

本帖重点关注scala以及兼容到spark平台上的数据集合,包括
Iterator 
Seq 
Array 
Set  
List  
Tuple 
RDD
DStream

1.  Iterator 慎用
此类型循环事特别注意,由于就是follow Iterator的概念,所以遍历一次后,往往再遍历就为空Iterator了,例如:

val mydata = Source.fromFile(".....").getLines()
val MyRating = mydata.map{line=> val record = line.split("::") (record(0),record(1),record(2),record(3)) match {case (user,product,rate,timestamp)=> Rating(user.toInt,product.toInt,rate.toDouble) }}

此时MyRating的类型是Iterator,只要遍历后Iterator就为空了,不能再访问到数据
办法是可以转换为多种类型,toSeq 没问题

2.    转(k,v)类型的,多用于join操作

val movieData = Source.fromFile("/tmp/aaa/machine-learning/movielens/medium/movies.dat","ISO-8859-15").getLines()
val movieList = movieData.map{ line=>
  val record = line.split("::")
  (record(0).toInt,record(1))
}.toMap




  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值