放大镜放大FDA-CSDN博客

本关任务：本关是利用套接字流监听方法，监听名单信息并过滤黑名单信息。首先需要模拟名单的生成，首先需要建一个文档，每行为一个姓名。然后编写代码，当有指定套接字连接产生时，从文件中依次选取所有名单，发送给套接字端口。另外在编写代码，通过连接套接字端口，监听端口的数据，获取发送的名单，并过滤黑名单。名单文档内容如下： Jim Mary Tom Jack Abby Bee Belle Babs Carla Dale Dan Gary Ken Jane Paige。根据提示，补充监听套接字并过滤黑名单代码文。

2024-05-31 19:14:16 427

原创章节测验.

文件，并填充 Python 语句完成右侧代码文件中列出的所有操作。打开右侧代码文件窗口，在。区域补充代码，完成任务。打开右侧代码文件窗口，在。区域补充代码，完成任务。打开右侧代码文件窗口，在。区域补充代码，完成任务。读取 MySQL 数据库。

2024-05-31 19:11:47 1942

原创章节测验()

文本文件 RDD 可以使用创建 SparkContext 的textFile 方法。此方法需要一个 URI的文件（本地路径的机器上，或一个hdfs://，s3a://等URI），并读取其作为行的集合。# 3.使用 rdd.collect() 收集 rdd 的内容。rdd.collect() 是 Spark Action 算子，在后续内容中将会详细说明，主要作用是：收集 rdd 的数据内容。# 1.初始化 SparkContext，该对象是 Spark 程序的入口。# 4.打印 rdd 的内容。

2024-05-31 19:04:17 373

原创 Transformation - mapPartitions

【代码】Transformation - mapPartitions。

2024-05-31 18:57:16 267

原创 Transformation - map

【代码】Transformation - map。

2024-05-31 18:56:14 283

原创章节测验（文件）

请你读取这三个文件的内容，计算各个学生的平均成绩（保留两位小数），将输出结果存储到。其中每行存储的内容由两个字段组成，第一个是学生名字，第二个是学生的成绩。，现在需要对这两个文件进行合并，并剔除其中重复的内容，将合并结果存储到。本关任务：根据编程要求，完成任务。本关任务：根据编程要求，完成任务。输出结果按平均分成绩降序进行排列。下面是上述文件一个样例，供参考。合并结果按首列升序进行排列。打开右侧代码文件窗口，在。区域补充代码，完成任务。打开右侧代码文件窗口，在。区域补充代码，完成任务。

2024-05-31 18:51:57 575

原创读取外部数据集创建RDD

PySpark可以从Hadoop支持的任何存储源创建分布式数据集，包括本地文件系统，HDFSCassandraHBaseAmazon S3等。Spark支持文本文件，和任何其他。文本文件RDD可以使用创建的textFile方法。此方法需要一个URI的文件（本地路径的机器上，或一个等 URI），并读取其作为行的集合。这是一个示例调用：# 1.初始化 SparkContext，该对象是 Spark 程序的入口。

2024-05-31 18:06:57 418

原创集合并行化创建RDD

RDD）叫做分布式数据集，是Spark中最基本的数据抽象，它代表一个不可变可分区、里面的元素可并行计算的集合。RDD具有数据流模型的特点：自动容错、位置感知性调度和可伸缩性。RDD允许用户在执行多个查询时显式地将工作集缓存在内存中，后续的查询能够重用工作集，这极大地提升了查询速度。简单的来说RDD就是一个集合，一个将集合中数据存储在不同机器上的集合。# 1.初始化 SparkContext，该对象是 Spark 程序的入口# 2.创建一个1到8的列表List。

2024-05-31 18:05:43 423

原创数据data.

为了让数据变得可用,需要对数据进行三个步骤的处理,分别是( )计算机系统中的数据组织形式主要有两种,分别是( )下面关于数据的说法,错误的是( )数据的价值会因为不断使用而削减。数据的类型主要包括（）

2024-05-25 21:13:44 281

原创大数据测验（二）

大数据产业是指一切与支撑大数据组织管理和价值发现相关的企业经济活动的集合。以下哪些属于大数据产业的某个环节( )具备强大的并发性，支持函数式编程，可以更好地支持分布式系统。Scala 兼容 Java，可以与 Java 互操作。语法简洁，且强制缩格，程序具有很好的可读性。Scala 具有诸多优点，主要包括（）以下哪个不是大数据的“4V”特性( )Python 的主要优点包括（）Scala 支持高效的交互式编程。Scala 代码简洁优雅。可以使用多种执行方式。

2024-05-25 21:10:23 257

原创大数据测验

物联网的发展最终导致了人类社会数据量的第三次跃升,使得数据产生方式进入了( )信息科技为大数据时代提供技术支撑,主要体现在哪三个方面( )紧抓大数据产业机遇,应对脱欧后的经济挑战。云计算、大数据和物联网技术的普及。第3次信息化浪潮的标志是( )英国的大数据发展战略是( )CPU处理能力大幅提升。存储设备容量不断增加。

2024-05-25 21:07:57 237