ZYF2190003497-CSDN博客

原创大数据实时处理期末总结

大数据实时处理是一门非常重要的课程，它主要涉及到实时数据处理、流计算、分布式系统、消息队列等方面的内容。在这门课程中，我们学习了很多有用的知识和技能，以下是我对这门课程的期末总结：实时数据处理：在这门课程中，我们学习了如何处理实时数据。我们了解了常见的实时数据处理框架和技术，例如Storm、Spark Streaming等。我们还学习了如何设计实时数据处理系统，包括数据采集、数据处理、数据存储等方面的内容。流计算：流计算是实时数据处理的核心技术之一。在这门课程中，我们学习了流计算的基本概念和原理。

2023-06-16 15:21:43 367

原创 Spark大数据处理讲课笔记4.1 Spark SQL概述、数据帧与数据集

Spark SQL是Spark用来处理结构化数据的一个模块，它提供了一个编程抽象结构叫做DataFrame的数据模型（即带有Schema信息的RDD），Spark SQL作为分布式SQL查询引擎，让用户可以通过SQL、DataFrames API和Datasets API三种方式实现对结构化数据的处理。DataFrame是Spark SQL提供的一个编程抽象，与RDD类似，也是一个分布式的数据集合，但与RDD不同，DataFrame的数据都被组织到有名字的列中，就像关系型数据库中的表一样。

2023-05-22 09:15:54 397

原创 Spark大数据处理讲课笔记3.8 Spark RDD典型案例

查看HDFS的结果文件。

2023-05-11 11:36:21 206

原创 Spark大数据处理讲课笔记3.6 RDD容错机制

语句，关闭了Spark容器，缓存的数据就被清除了，当然也无法访问Spark的存储数据。中执行，因此输出结果不正确。

2023-05-11 10:42:02 230

原创 Spark大数据处理讲课笔记3.5 RDD持久化机制

若RDD3没有持久化保存，则每次对RDD3进行操作时都需要从textFile()开始计算，将文件数据转化为RDD1，再转化为RDD2，最终才得到RDD3。上述操作说明，调用RDD的persist()方法只是将该RDD标记为持久化，当执行行动操作时才会对标记为持久化的RDD进行持久化操作。计算RDD4，就是基于RDD3缓存的数据开始计算，不用从头到尾跑一趟。计算RDD5，就是基于RDD3缓存的数据开始计算，不用从头到尾跑一趟。的存储信息，该RDD的存储级别为。的存储信息，该RDD的存储级别为。

2023-05-11 09:01:58 358

原创 Spark大数据处理讲课笔记3.2 掌握RDD算子

任务1、利用过滤算子输出[2000, 2500]之间的全部闰年。，如果关系表达式计算结果为真，那么该元素就丢进新RDD -因为RDD的元素为分布式的，数据可能分布在不同的节点上。基于列表创建RDD，然后利用过滤算子得到偶数构成的新RDD。任务2、利用过滤算子输出[10, 100]之间的全部素数。Spark会将RDD中的每个元素传入该函数的参数中。方法二、用神奇占位符改写传入过滤算子的匿名函数。为函数的参数名称，也可以使用其他字符，例如。内容，可以采用遍历算子，分行输出内容。

2023-04-20 11:50:06 257

原创 Spark大数据处理讲课笔记3.1 掌握RDD的创建

零、本节学习目标了解RDD的主要特征掌握RDD的创建方式

2023-04-13 13:17:27 373

原创 Spark大数据处理讲课笔记2.4 IDEA开发词频统计项目

新建Maven项目，基于JDK11。安装配置Scala 2.12.15。

2023-04-10 16:57:44 204

原创企业级信息系统开发讲课笔记2.1 初探MyBatis实现简单查询

..

2023-04-06 09:59:48 182

原创 Spark大数据处理讲课笔记2.2 搭建Spark开发环境

转化操作会由一个RDD 生成一个新的RDD。另一方面，行动操作会对RDD 计算出一个结果，并把结果返回到驱动器程序中，或把结果存储到外部存储系统（如HDFS）中。：Spark 3.3.2使用的Scala版本其实是2.12.15。创建出来后，RDD 支持两种类型的操作：转化操作（计算1 + 2 + 3 + ……例2、调用转化操作filter()利用print函数输出了一条信息。例3、调用行动操作first()就会报错，目前没有解决问题。在pyspark里完成。例1、创建一个RDD。

2023-04-01 11:46:08 410

原创 Spark大数据处理讲课笔记1.8 掌握Scala函数

函数其实是一段具有特定功能的代码的集合，由函数修饰符、函数名、函数参数列表、函数返回值声明与函数体组成。

2023-04-01 08:32:59 251

原创简单python多项式求和求积

..

2023-03-27 18:10:24 718

原创数据结构多项式求和

。。

2023-03-27 18:01:15 233

原创大数据处理学习笔记1.7 掌握Scala类、对象、抽象类与特质

对象是类的具体实例，类是抽象的，不占用内存，而对象是具体的，占用存储空间。面向对象三大特性之一：封装（encapsulation） - 封装数据和操作Scala中一个简单的类定义是使用关键字class，类名首字母必须大写。类中的方法用关键字def定义创建net.huawei.day04包，在包里创建User类，包含三个私有属性和一个公共方法/*** 功能：用户类* 作者：zyf* 日期：2023年03月日*/private var name = "张三丰"

2023-03-27 09:49:37 237

原创大数据处理学习笔记1.6 Scala数据结构

。。

2023-03-16 11:46:06 457 1

原创大数据处理学习笔记1.2掌握Scala内建控制结构

，

2023-03-02 11:22:49 219

原创大数据处理学习笔记1.1使用Scala集成开发环境

。。

2023-02-23 09:28:28 189

原创 Sparke入门

（三）Scala特性在很多地方Scala都很像Java，也是静态类型语言，但是比Java更为函数式编程，这句话主要从三句话就可以理解“一切都是对象”，“一切都是函数”以及“一切都是表达式”三方面理解。1、一切都是对象Scala里一切都是对象，这大概和Python很像，因为即便是数字1都有一系列的方法，所以我们可以调用1.toDouble将Int类型的1转换为Double类型的1。

2023-02-16 10:50:44 557 2

原创大数据MR---倒排索引

。。

2022-12-05 19:26:30 726

原创初探MapReduce

。。

2022-12-02 21:52:53 707

原创使用Java API操作HDFS

了解HDFS java API

2022-11-26 08:21:59 1392

原创 hdfs的shell基本操作

服务器每天会产生大量日志数据，并且日志文件可能存在于每个应用程序指定的data目录中，在不使用其它工具的情况下，将服务器中的日志文件规范的存放在HDFS中。为了模拟生产环境，在日志存放目录/export/data/logs/log/中，手动创建日志文件，access.log表示正在源源不断的产生日志的文件，access.log.1、access.log.2等表示已经滚动完毕的日志文件，即为待上传日志文件。上传文件的过程就是遍历文件目录的过程，将文件首先移动到待上传目录，再从待上传目录中上传到HDFS中。

2022-11-11 14:00:00 542

ZYF2190003497的博客