自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(35)
  • 收藏
  • 关注

原创 报错:java.sql.SQLException: Access denied for user ‘root‘@‘localhost‘ (using password: YES)

因为yml或yaml对数据类型有一定要求,所以,如果你的密码是数字的话,就可能造成yml或yaml解析错误,从而导致数据库密码错误问题。

2023-11-22 09:25:09 2932

原创 大数据实时处理4.2 Spark SQL数据源 - 基本操作

使用format()方法可以手动指定数据源。数据源需要使用完全限定名(例如),但对于Spark SQL的内置数据源,也可以使用它们的缩写名(JSON、Parquet、JDBC、ORC、Libsvm、CSV、Text)。通过手动指定数据源,可以将DataFrame数据集保存为不同的文件格式或者在不同的文件格式之间转换。在指定数据源的同时,可以使用option()方法向指定的数据源传递所需参数。例如,向JDBC数据源传递账号、密码等参数。

2023-05-25 11:51:01 403 1

原创 大数据实时处理4.1 Spark SQL概述、数据帧与数据集

Spark SQL是Spark用来处理结构化数据的一个模块,它提供了一个编程抽象结构叫做DataFrame的数据模型(即带有Schema信息的RDD),Spark SQL作为分布式SQL查询引擎,让用户可以通过SQL、DataFrames API和Datasets API三种方式实现对结构化数据的处理。DataFrame是Spark SQL提供的一个编程抽象,与RDD类似,也是一个分布式的数据集合,但与RDD不同,DataFrame的数据都被组织到有名字的列中,就像关系型数据库中的表一样。

2023-05-18 11:48:31 664

原创 大数据实时处理3.8 Spark RDD典型案例

RDD经典案例

2023-05-11 11:14:51 492

原创 大数据实时处理3.6 RDD容错机制

会单独启动一个任务将标记为检查点的RDD的数据写入文件系统,如果RDD的数据已经持久化到了内存,将直接从内存中读取数据,然后进行写入,提高数据写入效率,否则需要重复计算一遍RDD的数据。val rdd = sc.makeRDD(Array(1, 2, 3, 4, 5)) // 创建RDD。rdd.foreach(x => myacc.add(x)) // 在Executor里向累加器添加值。println("sum = " + myacc.value) // 在Driver里输出累加结果。

2023-05-11 10:29:03 132

原创 大数据实时处理 3.5 RDD持久化机制

若RDD3没有持久化保存,则每次对RDD3进行操作时都需要从textFile()开始计算,将文件数据转化为RDD1,再转化为RDD2,最终才得到RDD3。* 在第一次行动操作时持久化RDD,并设置存储级别,当RDD从来没有设置过存储级别时才能使用该方法。()方法只是将该RDD标记为持久化,当执行行动操作时才会对标记为持久化的RDD进行持久化操作。// 第二次行动算子,直接利用rdd2的持久化数据进行操作,无须从头进行计算。// 第一次行动算子,对标记为持久化的RDD进行不同级别的持久化操作。

2023-05-08 19:09:48 265

原创 大数据实时处理 3.3 掌握RDD分区

在有些情况下,使用Spark自带的分区器满足不了特定的需求。例如,某学生有以下3科成绩数据:科目成绩chinese98math88english96现需要将每一科成绩单独分配到一个分区中,然后将3科成绩输出到HDFS的指定目录(每个分区对应一个结果文件),此时就需要对数据进行自定义分区。创建类/*** 功能:科目分区器* 作者:柠檬* 日期:2023年05月4日*//*** 取得分区数量* @return 分区数量*//**

2023-05-07 19:52:27 185

原创 大数据实时处理3.2 掌握RDD算子

了解RDD的处理过程掌握转换算子的使用掌握行动算子的使用

2023-04-20 11:55:23 318

原创 大数据实时处理 3.1 掌握RDD的创建

Spark提供了一种对数据的核心抽象,称为弹性分布式数据集(Resilient Distributed Dataset,RDD)。

2023-04-20 08:43:41 540

原创 大数据实时处理 2.4 IDEA开发词频统计项目

执行命令:spark-submit --master spark://master:7077 --class net.huawei.rdd.WordCount SparkRDDWordCount.jar。.flatMap(_.split(" ")) // 扁平化映射,得到单词数组。.flatMap(_.split(" ")) // 扁平化映射,得到单词数组。.map((_, 1)) // 针对每个单词得到二元组(word, 1).map((_, 1)) // 针对每个单词得到二元组(word, 1)

2023-04-13 11:36:36 308

原创 问题解决: 报错:什么什么as process 29918. Stop it first. 在FinalShell的master虚拟机上安装配置Spark时启动Hadoop

其实简单说,就是我们重复启动啦!stop-dfs.sh # 关闭。start-dfs.sh # 重启。那我们就想,这是为什么呢?叮当~本次分享结束~

2023-04-02 20:04:50 433

原创 大数据实时处理 2.2 搭建Spark开发环境

Executor为应用程序运行在Worker节点上的一个进程,由Worker进程启动,负责执行具体的Task,并存储数据在内存或磁盘上。方法,创建SparkContext对象(负责与Spark集群进行交互),提交Spark作业,并将作业转化为Task(一个作业由多个Task任务组成),然后在各个Executor进程间对Task进行调度和监控。集群的主节点称为Master节点,在集群启动时会在主节点启动一个名为Master的守护进程,类似YARN集群的ResourceManager;命令,查看启动的进程。

2023-04-02 17:49:04 896 1

原创 大数据实时处理 2.1 初识Spark

Spark在2013年加入Apache孵化器项目,之后获得迅猛的发展,并于2014年正式成为Apache软件基金会的顶级项目。Spark生态系统已经发展成为一个可应用于大规模数据处理的统一分析引擎,它是基于内存计算的大数据并行计算框架,适用于各种各样的分布式平台的系统。在Spark生态圈中包含了Spark SQL、Spark Streaming、GraphX、MLlib等组件。

2023-04-01 09:05:40 605

原创 大数据实时处理 1.7 掌握Scala类、对象、抽象类与特质

对象是类的具体实例,类是抽象的,不占用内存,而对象是具体的,占用存储空间。面向对象三大特性之一:封装(encapsulation) - 封装数据和操作Scala中一个简单的类定义是使用关键字class,类名首字母必须大写。

2023-03-27 09:54:12 188

原创 大数据实时处理 1.6 Scala数据结构

定义数组时初始化数据自动推断数组类型手动指定数据类型先定义,后赋值避免数组下标越界错误。

2023-03-06 14:40:33 581

原创 大数据实时处理 1.5 掌握Scala内建控制结构

Scala提供的控制结构并不算多,因为在中,可以自己开发出各种功能的控制结构,所以Scala提供的原生控制结构仅仅够用为止。

2023-02-24 10:42:58 412

原创 大数据实时处理 1.4 掌握Scala运算符

掌握Scala运算符

2023-02-23 11:07:36 341 3

原创 大数据实时处理 1.3 使用Scala集成开发环境

IDEA中的Scala安装插件。

2023-02-20 19:58:34 166

原创 大数据实时处理 1.2 Scala变量与数据类型

定义变量需要初始化,否则会报错。注意:Java里可以先声明变量,然后再赋值定义变量时可以不指定数据类型,系统会根据初始化值自动推断变量的类型。注意:Java声明变量必须指定类型。

2023-02-20 19:26:07 146

原创 大数据实时处理 1.1搭建Scala开发环境

Scala是Scalable Language的简写,是一门多范式的编程语言,由联邦理工学院洛桑(EPFL)的Martin Odersky于2001年基于Funnel的工作开始设计,设计初衷是要集成面向对象编程和函数式编程的各种特性。Scala是一种将面向对象和函数式编程结合在一起的高级语言,旨在以简洁、优雅和类型安全的方式表达通用编程模式。Scala功能强大,不仅可以编写简单脚本,还可以构建大型系统。

2023-02-13 15:43:33 828 2

原创 2022年秋期学习《数据清洗预处理》学期总结

学期总结

2022-12-20 23:33:27 207

原创 解决问题 - 错误:不支持发行版本 5 无效的目标发行版:11

打开设置对话框,查看Java编译器等级。无效的目标发行版:11。

2022-12-20 22:31:10 204

原创 初探MapReduce

初探MapReduce

2022-12-08 20:41:45 401

原创 使用Java API操作HDFS

Hadoop是使用Java语言编写的,因此可以使用Java API操作Hadoop文件系统。HDFS Shell本质上就是对Java API的应用,通过编程的形式操作HDFS,其核心是使用HDFS提供的Java API构造一个访问客户端对象,然后通过客户端对象对HDFS上的文件进行操作(增、删、改、查)。

2022-11-30 21:49:48 2968

原创 HDFS的shell操作

Shell在计算机科学中俗称“壳”,是提供给使用者使用界面的进行与系统交互的软件,通过接收用户输入的命令执行相应的操作,Shell分为图形界面Shell和命令行式Shell。文件系统(FS)Shell包含了各种的类Shell的命令,可以直接与Hadoop分布式文件系统以及其他文件系统进行交互。

2022-11-16 20:42:46 4626

转载 HDFS架构和原理

回顾本节课所讲的内容,并通过提问的方式引导学生解答问题并给予指导。第二课时。

2022-11-11 09:59:01 149

转载 HDFS基本概念

目录零、学习目标一、导入新课二、新课讲解(一)HFDS的演变​(二)HDFS的基本概念 1、NameNode(名称节点)2、DataNode(数据节点)3、Block(数据块)4、Rack(机架)5、Metadata(元数据)(三)HDFS的特点1、HDFS的优点(1)高容错性 (2)适合批处理(3)适合大数据处理(4)流式数据访问(5)可构建在廉价机器上2、HDFS的缺点(1)不适合低延时数据访问(2)无法高效的对大量小文件进行存储(3)并发写入、文件随机修改三、归纳总结四、上机操作———————————

2022-11-11 08:55:55 1091

原创 Hadoop集群测试3

Hadoop集群的测试,细节决定成败!

2022-11-04 12:01:50 683

原创 Hadoop集群配置2

本章节讲对Hadoop安装后的一些基本配置,对于slave1和slave2的分发和使用!

2022-10-27 13:47:28 3600

原创 Hadoop部署模式

Hadoop是Apache基金会面向全球开源的产品之一,任何用户都可以从Apache Hadoop官网下载使用。本次学习Hadoop,我们使用目前的最新版 - hadoop-3.3.4。scp -r $JAVA_HOME root@slave1:$JAVA_HOME (-r:recursive - 递归)scp -r $JAVA_HOME root@slave2:$JAVA_HOME (-r recursive - 递归)下一节,我们会学习如何配置Hadoop集群!,建议大家用迅雷下载,贼快!

2022-10-26 21:17:35 779 2

原创 OpenStack私有云安装配置

老师配置的私有云中,是安装好finalshell的,所以我们在ubuntu中使用finalshell是不用自己安装的,在配置实例的Ubuntu时,可以将其内存设置大一点。如果像在VMware虚拟机上那样配置静态IP地址,会导致FinalShell无法连接虚拟机。用户名:root,密码:p@ssw0rd。注意,必须使用虚拟机ied的私有IP地址。此时是无法ping通的。查看虚拟机绑定的浮动IP地址。今天的分享到此结束!reboot(重启)

2022-10-20 20:46:25 819

原创 Linux目录操作

love.txt (echo是输出命令,默认是输出到屏幕;针对文件love.txt,权限字符串:-rw-r--r--第1位:表示文件类型;-表示文件,d表示目录,l表示链接。第567位:表示文件所在组(group)的读写可执行权限。第89X位:表示文件其他人(other)的读写可执行权限。第234位:表示文件所有者(user)的读写可执行权限。今天的分享到此结束啦!

2022-10-06 22:33:18 121 1

原创 Linux用户操作

学习Linux用户操作,分为用户操作和用户组操作,今天我们学习的是用户操作。所以,接下来我们正式进入Linux用户操作的学习。在Linux系统当中,默认情况下:所有用户信息保存在/etc/passwd文件内(包括root用户);用户密码信息保存在/etc/shadow文件内;所有用户组信息保存在/etc/group文件内,用户组密码信息保存在/etc/gshadow文件内。这四个文件非常重要,不要轻易做变动。切换用户查看用户添加用户修改用户删除用户。

2022-09-25 00:36:30 1666 3

原创 (接上节课)安装使用finalshell

解释:为什么我的主机名称为:ied login:而不是root login:,原因是,课程已经进入finalshell修改主机名称了,所以复习时,未将其修改成初始状态。错误原因:是由于前面配置静态IP时中修改网卡配置文件出错,在做的时候,不熟悉,而导致安装出错!配置域名解析服务器,执行命令:vi /etc/resolv.conf,添加两个域名服务器。注意:输入时,切勿输错字母,并且,注意是否有无空格。

2022-09-24 19:22:48 2260 1

原创 数据清洗与预存第一课

思维导图学习到,一个非常快捷的整理知识结构的方式。运用软件xmind进行整理,归纳出思维导图。(一)安装VMWare-Workstation1、获取安装程序下载网址:https://pan.baidu.com/s/1TIAePoFmlnH997XtTKkvXQ 提取码:794i将安装程序下载到本地2、进入安装向导双击安装程序图标,进入安装向导3、按提示完成安装接受最终用户许可协议修改安装位置(默认位置C:\Program Files(x86)

2022-09-22 00:51:05 331 1

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除