scala spark数据去重实验

最新推荐文章于 2024-05-30 00:56:25 发布

朱健强ZJQ

最新推荐文章于 2024-05-30 00:56:25 发布

阅读量2.4k

点赞数

分类专栏： Spark

本文链接：https://blog.csdn.net/huoyongliang/article/details/88078172

版权

Spark 专栏收录该内容

17 篇文章 0 订阅

订阅专栏

目标：读取文件数据，去重，排序输出
数据去重的最终目标是让原始数据中出现次数超过一次的数据在输出文件中只出现一次

实验文件

file1.txt

2012-3-1 a
2012-3-2 b
2012-3-3 c
2012-3-4 d
2012-3-5 a
2012-3-6 b
2012-3-7 c
2012-3-3 c

file2.txt

2012-3-1 b
2012-3-2 a
2012-3-3 b
2012-3-4 d
2012-3-5 a
2012-3-6 c
2012-3-7 d
2012-3-3 c

代码实现：

/*
* 数据去重问题
* */
import org.apache.log4j.{Level, Logger}
import org.apache.spark.sql.SparkSession

object distinct {
  Logger.getLogger("org").setLevel(Level.WARN)
  Logger.getLogger("org.eclipse.jetty.server").setLevel(Level.OFF)
  def main(args: Array[String]): Unit = {
    val spark = SparkSession.builder().appName("distinct").master("local[*]")
      .config("spark.testing.memory", "2147480000")
      .getOrCreate()
    val inputFile = "D:\\bigdata\\learn01\\file*.txt"
    val rdd = spark.sparkContext.textFile(inputFile)

    val result = rdd.filter(_.trim().length()>0 ).map( line=>(line.trim,"") ).groupByKey()
      .sortByKey()
//        .keys //获取所有键
      .map(_._1)//获取第一个值
      .collect()
    result.foreach(println(_))

    spark.stop()
  }
}

实验结果：

2012-3-1 a
2012-3-1 b
2012-3-2 a
2012-3-2 b
2012-3-3 b
2012-3-3 c
2012-3-4 d
2012-3-5 a
2012-3-6 b
2012-3-6 c
2012-3-7 c
2012-3-7 d

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

朱健强ZJQ

关注关注

0
点赞
踩
8

收藏

觉得还不错? 一键收藏
0
评论
分享

复制链接

分享到 QQ

分享到新浪微博

扫一扫
举报

举报

专栏目录

使用Scala语言编写Spark应用程序实现数据去重

weixin_46701669的博客

10-24

6480

使用Scala语言编写Spark应用程序实现数据去重一、题目需求二、建立目录结构（一）创建 sparkapp4 文件夹并切换（二）创建 data 文件夹（存放A.txt B.txt）（三）创建 /src/main/scala 文件夹用来存放代码（四）编写代码（五）编写 simple.sbt三、编译及运行（一）编译（二）运行（三）验证一、题目需求使用Scala语言编写Spark应用程序实现数据去重（需要使用编译打包工具Maven或sbt进行编译打包）。对于两个输入文件A和B，编写Spark独立应用程序，

Oracle 大数据量去重实验

wzy0623的专栏

12-28

3537

[sql] view plain copy-- 环境：64位11.2G -- 一、建立测试表，生成2000万测试数据，其中200万重复 CREATE TABLE test_t ( id NUMBER (8) NOT NULL PRIMARY KEY, name VARCHAR2 (32) ); BEGIN FOR i IN 1 .. 180

参与评论您还未登录，请先登录后发表或查看评论

scala列表去重排序

m0_58535137的博客

02-15

743

import java.io.{BufferedWriter, FileWriter} import scala.io.Source object 列表去重排序 { def main(args: Array[String]): Unit = { val source = Source.fromFile("./data/1.txt") val list: List[String] = source.mkString.split("\\s+").toList // 将列表中的字符

关于大数据去重的一些总结

branSummer的博客

09-15

3353

关于大数据去重的一些总结前言之前在实习的公司里, 涉及到从 Hbase 中去数据转储到 MongoDB 这一过程, 其中取数据的依据是 redis 中存放的 id 队列, 因为往这个队列中生产ID完全是另一个项目组的行为, 在这一过程中当然会涉及到数据重复的问题, 针对这一问题, 当时项目中的做法是: 利用 redis 中 HyperLoglog 这一数据结构来去重. HyperL...

Spark - 大规模数据去重

BITDDD小栈

12-02

2549

Spark 大规模数据去重记数实践

基于Spark、Scala数据统计

endir_Xiao_ai的博客

11-10

270

目录前言SparkScala数据来源过程准备工作下载插件新建普通Scala项目将jsonl文件上传到HadoopCode（五个指标需求）1.统计上座率高于50%的电影院运行结果如下：2.统计同名称的电影院有多少家运行结果如下：3.计算电影院当日的场均人次运行结果如下：4.统计当日观众人数最高的前15个电影院运行结果如下：5.查询电影院某一天的票房运行结果如下：总结： Spark是一个开源的大数据处理框架，旨在提供快速、通用且易于使用的分布式数据处理和分析功能。它最初由加

大数据技术原理及应用课实验7 :Spark初级编程实践

01-16

1. 数据去重：这个任务要求合并两个文件A和B，并去除其中重复的内容。在Spark中，可以使用`reduceByKey`或`distinct`操作来实现。首先，将两个文件的内容合并为一个DataFrame或RDD，然后通过`reduceByKey(_ + _)`对...

Spark算子--Scala版本(头歌)

m0_53510670的博客

06-14

3551

第1关转换算子之map和distinct算子代码如下： importorg.apache.spark.rdd.RDD importorg.apache.spark.{SparkConf,SparkContext} objectEduCoder1{ defmain(args:Array[String]):Unit={ valconf=newSparkConf().setAppName("educoder1").setMaster...

pySpark RDD编程其中题

05-18

对于数据去重的任务，需要编写一个独立的Spark应用程序，读取两个文件A.txt和B.txt，将它们合并，然后利用`distinct`操作去重，最后将结果写入新的文件C.txt。实现过程中需要注意正确地读取和合并文件，以及处理数据...

Spark 2.4.0实验：本地与HDFS文件操作与去重编程

第二部分挑战学生处理更复杂的数据操作，即实现数据去重。通过编写Spark应用程序，将两个输入文件（如A和B）合并，去除其中重复的内容，生成一个新的无重复元素的文件C。这个过程涉及到文件读取、数据合并和去重算法...

scala 样例类的迭代器iterator去重计数

yy的博客

01-15

396

目录 scala version < 2.13 scala version >= 2.13 方法1 方法2 scala version < 2.13 // input: Iterable[UserBehavior] //case class UserBehavior(userId: Long, itemId: Long, categoryId: Int, behavior: String, timestamp: Long) // 根据用户id去重计数 va...

Scala语法对重复内容去除的方法（采用Map方法）

最新发布

weixin_47789646的博客

05-30

262

通过关联会产生四条数据，但是我们只是想要广州的大帅锅，如果对sql进行distinct的操作就会剩余二条信息永远无法去除深圳的大帅锅，所以我们采用map方法实现一个id只有一条信息的操作。通过广播变量和getOrElse的方法实现一个人只对应一条信息可以避免出现重复的数据。当我们存在二张表分别为地方信息和个人信息的表想进行关联的时候会出现以下情况。我们如果通过spark sql进行关联的话会出现重复数据。

spark5种去重方式,快速去重

qq_39285950的博客

01-01

7158

双重group by将去重分成了两步,是分组聚合运算,group by操作能进行多个reduce任务并行处理,每个reduce都能收到一部分数据然后进行分组内去重,不再像distinct只有一个reduce进行全局去重.sql中最简单的方式,当数据量小的时候性能还好.当数据量大的时候性能较差.因为distinct全局只有一个reduce任务来做去重操作,极容易发生数据倾斜的情况,整体运行效率较慢.DataFrame中,可以先将分区内数据进行排序,然后通过dropDuplicates将重复的数据删除.

基于Scala的RDD运算

我的笔记

08-01

1156

def addOne(x:Int):Int = { return (x+1) } //map运算：对RDD中每一个元素做一个转换操作，生成一个新的RDD println("使用具体的函数完成map运算："+intRDD.map(addOne).collect().mkString(",")) println("使用匿名函数完成map运算："+i...

Scala set去重与case class

bigdataprimary的博客

11-07

914

set去重：底层使用了hashMap进行去重，而hashMap判定元素是否相同时调用了hashcode，equals方法。若在使用过程中使用set来装自定义类型并且想要达到去重的目的需要实现hashcode，equals方法在使用中发现若用set装自定义的case class会自动实现去重，代码如下： case class Name(name:String) def main(ar...

spark的去重算子

qq_43662627的博客

06-05

766

import org.apache.spark.{SparkConf, SparkContext} object Test6 { def main(args: Array[String]): Unit = { val sparkconf = new SparkConf().setMaster("local[*]").setAppName("wordcount") val sc =new SparkContext(sparkconf) val rdd= sc.paralleli

Spark部分：算子去重操作（包含利用distinct关键字和利用Wordcount的方式.maptopair,.reducebykey,.map,.foreache）【Java版纯代码】

wyqwilliam的博客

07-21

808

package com.bjsxt.spark; import java.util.Arrays; import java.util.List; import org.apache.spark.SparkConf; import org.apache.spark.SparkContext; import org.apache.spark.api.java.JavaPairRDD; impor...

去重排序的方法总结

xuxuzi1212的博客

08-20

774

例题：明明想在学校中请一些同学一起做一项问卷调查，为了实验的客观性，他先用计算机生成了N个1到1000之间的随机整数（N≤1000），对于其中重复的数字，只保留一个，把其余相同的数去掉，不同的数对应着不同的学生的学号。然后再把这些数从小到大排序，按照排好的顺序去找同学做调查。请你协助明明完成“去重”与“排序”的工作(同一个测试用例里可能会有多组数据，希望大家能正确处理)。 Input Par...

解决java+Spark进行数据去重的具体操作步骤

WBKJ_Noah的博客

07-08

698

数据去重是处理大数据的一个常见任务，可以帮助我们快速识别和删除重复的数据行。然后，我们可以使用SparkSession来加载我们的数据。在上述代码中，我们调用了dropDuplicates()方法来对数据进行去重操作，并将结果保存在一个新的Dataset对象中。一旦我们加载了数据，我们就可以执行数据去重操作了。在上面的代码中，我们调用了write().csv()方法来将去重后的数据保存为CSV格式，并指定了输出路径。现在，你可以将数据去重的代码封装在一个可执行的Java程序中，并运行它来实现数据去重。

掌握Scala与Apache Spark大数据处理源码分析

资源摘要信息:"基于Scala的Apache Spark大数据处理设计源码" 一、项目概述本项目采用Scala语言实现的Apache Spark大数据处理系统，提供了一整套完整的源码。系统内包含大量文件，涵盖了不同的数据格式和编程语言，...