Scala基础应用(7)- map/flatMap和filter

Scala基础应用(7)- map/flatMap和filter

本章主要介绍集合的map, flatten, flatMap, filter zip, fold, reduce等常用方法

map

map接受一个函数作为参数, 而此函数会接受一个参数为集合中元素, 所以此函数用于对集合中每一个元素进行处理后,产出其结果的集合。

val test = List("a", "b", "c")
test.map(x => x.toUpperCase)
或者 test.map(_.toUpperCase)

flatten

flatten 是将嵌套集合展开一层,注意Any类型的集合是不是展开的,但集合类型是可以展开的,即使是Any类型的集合类型。

List(List(List(1,2),List(3,4)), List(5,6)).flatten 可以展开一层,元法再次调用flatten进行再次展开,因为List(5,6)在第一次flatten时,已经展开,这个List会变成含有List和常数的List[Any]类型,下面可以进行再次展开

List(List(List(1,2),List(3,4)), List(List(5,6), List(7,8))).flatten.flatten  // 可以展开第二层

flatMap

flatMap实际上是对集合进行map, 然后将map函数处理的结果再flatten

List(List("a", "b"), List("c", "d")).flatMap (x => x)
与
List(List("a", "b"), List("c", "d")).flatten 返回的结果一样

只是前面一个式子中,x 参数是一个List集合

List(List(1,2),List(3,4)).flatMap(x=>x.map(x=>x*2))
通过上面这个式子,也可以看出x是集合,它有map功能,同时我们也能看出map返回的也是集合,而结果是展开的,所以可以理解为flatMap在执行完函数后,执行了flatten

filter

filter通过函数参数过滤掉函数返回false的元素

List("a", "b", "c").filter(x => x == "a")

zip

zip将两个集合进行合并,最终结果为较短集合的长度

val list1 = List("a", "b", "c", "d")
val list2 = List(1, 2, 3)
list1.zip(list2) 或者 list2.zip(list1)的长度都是3

可用zipAll来处理长度不同的两个集合,那如何处理较短的集合的填充呢?

list1.zipAll(list2, "填充1", "填充2")
如果list1较短,则用"填充1"填充,如果list2较短,则用"填充2"进行填充
上例将以"填充2"填充, 因为list2较短

fold

fold将集合元素进行处理,然后产生你想要的结果类型。

  • 样式

    集合变量.fold(初始值) { (累集结果变量,元素) => 处理函数体}
    
    如:
    List(1,2,3,4,5).fold(0) { (sum, item) => sum + item }
    返回15
    List(1,2,3,4,5).fold("a") { (sum, item) => sum + item.toString }
    返回 a12345
    
    注意:如果初始值类型和元素类型一至,返回类型也是该类型,否则为Any类型
  • foldLeft和foldRight分别从左开始fold和从右往左开始fold

    class Foo(val name: String, val age: Int, val genda: Symbol)
    object Foo {
        def apply(name: String, age: Int, genda: Symbol) = new Foo(name, age, genda)
    }
    
    val fooList = Foo("张三", 15, '男) :: Foo("李四", 20, '男) :: Foo("阿花", 18, '女) :: Nil
    
    val lst = fooList.foldLeft(List[String]()) {
        (z, f) =>
        val title = f.genda match {
            case '男 => "Mr."
            case '女 => "Ms."
        }
        println(z)
        z :+ s"$title ${f.name}, ${f.age}"
    }
    
    注意: foldLeft和foldRight产生的结果与初始值的类型相同
    
    另外:
    foldLeft的简写为 /:
    foldRight的简写为 :\
    
    (0/:(1 to 100)) (_+_)
    ((1 to 100) :\0) (_+_)

reduce

可以将reduce认为是fold的一种特殊情况,reduce的返回值类型必须与元素的类型相同

val list1 = List(1,2,3)
list1.reduce((sum,item) => sum + item)
  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
以下是一个示例代码,假设我们有一个文本文件"input.txt",里面包含中文文本。 ```scala import org.apache.spark.{SparkConf, SparkContext} object CharacterCount { def main(args: Array[String]): Unit = { val conf = new SparkConf().setAppName("CharacterCount").setMaster("local[*]") val sc = new SparkContext(conf) // 读入文本文件,每行转化为一个字符串 val lines = sc.textFile("input.txt") // 将每个字符串拆分为单个字符 val characters = lines.flatMap(line => line.split("")) // 过滤掉非中文字符 val chineseCharacters = characters.filter(isChineseCharacter) // 将每个中文字符映射为一个键值对,值为1 val pairs = chineseCharacters.map(c => (c, 1)) // 按照键(中文字符)分组,将对应的值相加 val counts = pairs.reduceByKey(_ + _) // 输出结果 counts.foreach(println) sc.stop() } // 判断一个字符是否为中文字符 def isChineseCharacter(c: String): Boolean = { val p = "^[\\u4E00-\\u9FA5]+$".r p.findFirstMatchIn(c).isDefined } } ``` 首先,我们读入文本文件并将每行转化为一个字符串。然后,我们将每个字符串拆分为单个字符,并过滤掉非中文字符。接下来,我们将每个中文字符映射为一个键值对,值为1。最后,我们按照键(中文字符)分组,将对应的值相加,得到每个中文字符出现的次数。最后,我们输出结果。 在这个示例中,我们使用了Scala编程语言和Spark RDD API来进行中文字符计数。我们首先使用flatMap()函数将每个字符串拆分为单个字符,然后使用filter()函数过滤掉非中文字符。接着,我们使用map()函数将每个中文字符映射为一个键值对。最后,我们使用reduceByKey()函数将相同键的值相加,得到每个中文字符出现的次数。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值