自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(27)
  • 收藏
  • 关注

原创 大数据实时处理期末总结

大数据实时处理是一门非常重要的课程,它主要涉及到实时数据处理、流计算、分布式系统、消息队列等方面的内容。在这门课程中,我们学习了很多有用的知识和技能,以下是我对这门课程的期末总结:实时数据处理:在这门课程中,我们学习了如何处理实时数据。我们了解了常见的实时数据处理框架和技术,例如Storm、Spark Streaming等。我们还学习了如何设计实时数据处理系统,包括数据采集、数据处理、数据存储等方面的内容。流计算:流计算是实时数据处理的核心技术之一。在这门课程中,我们学习了流计算的基本概念和原理。

2023-06-16 15:21:43 172

原创 Spark大数据处理讲课笔记4.1 Spark SQL概述、数据帧与数据集

Spark SQL是Spark用来处理结构化数据的一个模块,它提供了一个编程抽象结构叫做DataFrame的数据模型(即带有Schema信息的RDD),Spark SQL作为分布式SQL查询引擎,让用户可以通过SQL、DataFrames API和Datasets API三种方式实现对结构化数据的处理。DataFrame是Spark SQL提供的一个编程抽象,与RDD类似,也是一个分布式的数据集合,但与RDD不同,DataFrame的数据都被组织到有名字的列中,就像关系型数据库中的表一样。

2023-05-22 09:15:54 209

原创 Spark大数据处理讲课笔记3.8 Spark RDD典型案例

查看HDFS的结果文件。

2023-05-11 11:36:21 94

原创 Spark大数据处理讲课笔记3.6 RDD容错机制

语句,关闭了Spark容器,缓存的数据就被清除了,当然也无法访问Spark的存储数据。中执行,因此输出结果不正确。

2023-05-11 10:42:02 101

原创 Spark大数据处理讲课笔记3.5 RDD持久化机制

若RDD3没有持久化保存,则每次对RDD3进行操作时都需要从textFile()开始计算,将文件数据转化为RDD1,再转化为RDD2,最终才得到RDD3。上述操作说明,调用RDD的persist()方法只是将该RDD标记为持久化,当执行行动操作时才会对标记为持久化的RDD进行持久化操作。计算RDD4,就是基于RDD3缓存的数据开始计算,不用从头到尾跑一趟。计算RDD5,就是基于RDD3缓存的数据开始计算,不用从头到尾跑一趟。的存储信息,该RDD的存储级别为。的存储信息,该RDD的存储级别为。

2023-05-11 09:01:58 158

原创 Spark大数据处理讲课笔记3.2 掌握RDD算子

任务1、利用过滤算子输出[2000, 2500]之间的全部闰年。,如果关系表达式计算结果为真,那么该元素就丢进新RDD -因为RDD的元素为分布式的,数据可能分布在不同的节点上。基于列表创建RDD,然后利用过滤算子得到偶数构成的新RDD。任务2、利用过滤算子输出[10, 100]之间的全部素数。Spark会将RDD中的每个元素传入该函数的参数中。方法二、用神奇占位符改写传入过滤算子的匿名函数。为函数的参数名称,也可以使用其他字符,例如。内容,可以采用遍历算子,分行输出内容。

2023-04-20 11:50:06 116

原创 Spark大数据处理讲课笔记3.1 掌握RDD的创建

零、本节学习目标了解RDD的主要特征掌握RDD的创建方式

2023-04-13 13:17:27 140

原创 Spark大数据处理讲课笔记2.4 IDEA开发词频统计项目

新建Maven项目,基于JDK11。安装配置Scala 2.12.15。

2023-04-10 16:57:44 73

原创 企业级信息系统开发讲课笔记2.1 初探MyBatis实现简单查询

..

2023-04-06 09:59:48 79

原创 Spark大数据处理讲课笔记2.2 搭建Spark开发环境

转化操作会由一个RDD 生成一个新的RDD。另一方面,行动操作会对RDD 计算出一个结果,并把结果返回到驱动器程序中,或把结果存储到外部存储系统(如HDFS)中。:Spark 3.3.2使用的Scala版本其实是2.12.15。创建出来后,RDD 支持两种类型的操作: 转化操作(计算1 + 2 + 3 + ……例2、调用转化操作filter()利用print函数输出了一条信息。例3、调用行动操作first()就会报错,目前没有解决问题。在pyspark里完成。例1、创建一个RDD。

2023-04-01 11:46:08 249

原创 Spark大数据处理讲课笔记1.8 掌握Scala函数

函数其实是一段具有特定功能的代码的集合,由函数修饰符、函数名、函数参数列表、函数返回值声明与函数体组成。

2023-04-01 08:32:59 109

原创 简单python多项式求和求积

..

2023-03-27 18:10:24 507

原创 数据结构多项式求和

。。

2023-03-27 18:01:15 124

原创 大数据处理学习笔记1.7 掌握Scala类、对象、抽象类与特质

对象是类的具体实例,类是抽象的,不占用内存,而对象是具体的,占用存储空间。面向对象三大特性之一:封装(encapsulation) - 封装数据和操作Scala中一个简单的类定义是使用关键字class,类名首字母必须大写。类中的方法用关键字def定义创建net.huawei.day04包,在包里创建User类,包含三个私有属性和一个公共方法/*** 功能:用户类* 作者:zyf* 日期:2023年03月日*/private var name = "张三丰"

2023-03-27 09:49:37 130

原创 大数据处理学习笔记1.6 Scala数据结构

。。

2023-03-16 11:46:06 174 1

原创 大数据处理学习笔记1.2掌握Scala内建控制结构

2023-03-02 11:22:49 97

原创 大数据处理学习笔记1.1使用Scala集成开发环境

。。

2023-02-23 09:28:28 83

原创 Sparke入门

(三)Scala特性在很多地方Scala都很像Java,也是静态类型语言,但是比Java更为函数式编程,这句话主要从三句话就可以理解“一切都是对象”,“一切都是函数”以及“一切都是表达式”三方面理解。1、一切都是对象Scala里一切都是对象,这大概和Python很像,因为即便是数字1都有一系列的方法,所以我们可以调用1.toDouble将Int类型的1转换为Double类型的1。

2023-02-16 10:50:44 251 2

原创 大数据MR---倒排索引

。。

2022-12-05 19:26:30 558

原创 初探MapReduce

。。

2022-12-02 21:52:53 463

原创 使用Java API操作HDFS

了解HDFS java API

2022-11-26 08:21:59 1066

原创 hdfs的shell基本操作

服务器每天会产生大量日志数据,并且日志文件可能存在于每个应用程序指定的data目录中,在不使用其它工具的情况下,将服务器中的日志文件规范的存放在HDFS中。为了模拟生产环境,在日志存放目录/export/data/logs/log/中,手动创建日志文件,access.log表示正在源源不断的产生日志的文件,access.log.1、access.log.2等表示已经滚动完毕的日志文件,即为待上传日志文件。上传文件的过程就是遍历文件目录的过程,将文件首先移动到待上传目录,再从待上传目录中上传到HDFS中。

2022-11-11 14:00:00 327

原创 配置hadoop集群

。。

2022-11-09 08:27:16 592

原创 Hadoop集群测试

hadoop集群

2022-11-04 10:39:42 583

原创 虚拟机配置hadoop

1112

2022-10-21 10:53:51 2154

原创 在OpenStack安装配置虚拟云

2022-10-14 11:46:42 340

原创 VMware以用户root登录虚拟机

hahah

2022-09-28 21:05:29 18778

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除