自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(221)
  • 资源 (2)
  • 收藏
  • 关注

原创 Hive中的DML操作

DML是Data Manipulation Language的缩写,意思是数据操纵语言,是指在SQL语言中,负责对数据库对象运行数据访问工作的指令集,以INSERT、UPDATE、DELETE三种指令为核心,分别代表插入、更新与删除,是开发以数据为中心的应用程序必定会使用到的指令。一并导处的HDFS路径,Import可将Export导出的内容导入Hive,表的数据和元数据信息都会恢复。(2)overwrite:表示覆盖表中已有数据,否则表示追加。(3)加载数据覆盖表中已有的数据。①上传文件到HDFS。

2023-06-08 14:32:09 110

原创 Hive中的DDL操作

在Apache Hive中,托管表(managed table)是由Hive自己管理其数据存储的表,因此,当您在Hive中执行TRUNCATE操作时,Hive会直接删除表中的所有数据,而存储表结构和元数据。在创建内部表的时候可以不指定路径进行创建,但是在创建外部表的时候,需要指定外部数据的存储位置,也就是指定外部存储的路径。外部表,与之相对应的是内部表(管理表)。该语法允许用户利用select查询语句返回的结果,直接建表,表的结构和查询语句的结构保持一致,且保证包含select查询语句放回的内容。

2023-06-08 11:22:42 154

原创 Hive数据类型和文件格式

转换的原则是从数据范围小的类型向数据范围大的类型转换,或从数据精度低的类型向数据精度高的类型转换,以保证数据和精度不丢失。employees表的第1行记录看上去和下面展示的一样,它用到了上面表格中的分隔符。Hive中经常经使用未经压缩的文本文件来存储数据,各字段之间如何保证正确分隔,分隔符的选择十分重要,已选定的分隔符不能出现在数据中。Hive 的 STRING 类型相当于数据库的 varchar 类型,该类型是一个可变的字符串,不过它不限定最多能存储多少个字符,理论上它可以存储 2GB 的字符数。

2023-06-08 09:44:07 196

原创 Linux快速安装MySQL

但是如果使用刚才那个密码,比较复杂,我们不容易记住,所以我们想把密码设置的简单一些,需要先进行设置。注意:由于MySQL密码策略,此密码必须足够复杂,需要大小写字母,数字,特殊字符。配置主要是root用户 + 密码,在任何主机上都能登录MySQL数据库。注意:若出现以下错误。

2023-06-06 18:44:50 202

原创 sparkRDD编程实战

由于一行为一条记录,先对数据进行切分构成二元组(时间,用户),然后按照用户进行分组,得到分组后的数据,取第一条数据为该用户第一次出现的数据,然后按照时间进行分组,最后输出结果。我们按照每个品类的点击、下单、支付的量来统计热门品类。首先我们先对原始数据进行结构的转换,只需要省份和广告即可,接着我们按照(省份,广告)进行聚合,然后按照省份进行分组,再进行组内排序,取前三个,最后打印输出。上面的数据图是从数据文件中截取的一部分内容,表示为电商网站的用户行为数据,主要包含用户的4种行为:搜索,点击,下单,支付。

2023-06-05 09:55:06 233

原创 虚拟机扩容

注意:这里有个细节,就是不能全扩展满,比如空闲空间是60G,然后这里的话60G不能全扩展上,这里我扩展的是55G。将虚拟机关机,然后点击VM顶部菜单栏中的显示或隐藏控制台视图按钮来显示已建立的虚拟机的配置信息。在我们一开始设置虚拟机的时候,一般都没有给虚拟机设定太大的磁盘容量,我当初设置的是每台虚拟机。磁盘容量,但随着课程的不断深入,内存逐渐不够用了。以上只是卷的扩容,然后我们需要将文件系统扩容。配置完成后,不要直接启动集群,需要重启一下。配置完成后,不要直接启动集群,需要重启一下。

2023-05-28 13:10:14 1705

原创 HBASE Phoenix异步创建索引报错

修改hbase-site.xml 的这个配置项:hbase.zookeeper.quorum。分发 hbase-site.xml 文件。关闭phoenix、hbase。启动hbase、phoenix。

2023-05-11 18:11:02 38 1

原创 Flink高手之路6-Flink四大基石

Spark最近在实现Continue streaming,Continue streaming的目的是为了降低处理的延时,其也需要提供这种一致性的语义,最终也采用了Chandy-Lamport这个算法,说明Chandy-Lamport算法在业界得到了一定的肯定。提供了一致性的语义之后,Flink为了让用户在编程时能够更轻松、更容易地去管理状态,还提供了一套非常简单明了的State API,包括ValueState、ListState、MapState,BroadcastState。

2023-04-20 23:19:20 343

原创 Flink高手之路5-Table API & SQL

Flink的Table模块包括 Table API 和 SQL:Table API 是一种类SQL的API,通过Table API,用户可以像操作表一样操作数据,非常直观和方便SQL作为一种声明式语言,有着标准的语法和规范,用户可以不用关心底层实现即可进行数据的处理,非常易于上手Flink Table API 和 SQL 的实现上有80%左右的代码是公用的。作为一个流批统一的计算引擎,Flink 的 Runtime 层是统一的。

2023-04-20 23:16:18 399

原创 Flink高手之路4-Flink流批一体

env.fromElements(可变参数)env.fromCollection(各种集合)env.generateSequence(开始,结束)env.fromSequence(开始,结束SourceFunction:非并行的随机数据源(并行度为1)RichSourceFunction:丰富的非并行的随机数据源(并行度为1)ParallelSourceFunction:并行的随机数据源(并行度可以大于等于1)

2023-04-20 21:12:28 379

原创 HBase高手之路7—HBase之全文检索Phoneix

Phoenix官方网址:http://phoenix.apache.org/Phoenix官网:「We put the SQL back in NoSQL」Apache Phoenix让Hadoop中支持低延迟OLTP和业务操作分析。提供标准的SQL以及完备的ACID事务支持通过利用HBase作为存储,让NoSQL数据库具备通过有模式的方式读取数据,我们可以使用SQL语句来操作HBase,例如:创建表、以及插入数据、修改数据、删除数据等。

2023-04-20 14:33:14 549

原创 HBase高手之路6—HBase高可用

HBase集群如果只有一个master,一旦master出现故障,将导致整个集群无法使用,所以在实际的生产环境中,需要搭建HBase的高可用,也就是让HMaster高可用,也就是需要再选择一个或多个节点也作为HMaster,但是只有一个是active,其他的都为backup master当active的master宕机时,从backup master中选举一个作为active。

2023-04-20 11:21:20 197

原创 HIve安装配置(超详细)

文章目录Hive安装配置一、Hive安装地址二、Hive安装部署1. 把 `apache-hive-3.1.2-bin.tar.gz`上传到Linux的/export/software目录下2. 解压`apache-hive-3.1.2-bin.tar.gz`到/export/servers/目录下面3. 修改`apache-hive-3.1.2-bin.tar.gz`的名称为hive4. 修改/etc/profile,添加环境变量5. 初始化元数据库(默认是derby数据库)三、MySQL安装1. 安装M

2023-04-19 14:07:30 2401

原创 HBase高手之路5—HBase的JavaAPI编程

关闭所有的项目,在Idea的启动页。

2023-04-10 11:27:11 351

原创 Hive常⽤交互命令与属性配置

或者或者–defifine key=value和–hivevar key=value是等价的。⼆者都是让⽤户在命令⾏定义⾃定义变量以便在Hive脚本中使⽤。当⽤户使⽤这个功能时,hive会将这些键值对放到hivevar命名空间,以便和其他3种内置命名空间(hiveconf、system、env)进⾏区分。hive属性有3种配置⽅式,分别可以在hive-site.xml中配置、命令⾏参数中配置、SET设定参数配置,上述三种设定⽅式的优先级依次递增。即配置⽂件

2023-04-02 21:18:36 153 2

原创 Flink高手之路3-Flink的入门案例

查看官网案例:https://nightlies.apache.org/flink/flink-docs-release-1.16/docs/dev/dataset/overview/对于DataSet的数据结果如果使用print,就不需要execute执行。注意:这里建议先关闭 IDEA,然后重新打开。yarn的web ui查看。

2023-03-30 11:00:35 304

原创 HBase高手之路3-HBase数据模型

在HBASE中,数据存储在具有行和列的表中。这是看起来关系数据库(RDBMS)一样,但将HBASE表看成是多个维度的Map结构更容易理解。ROWKEYC1列蔟C2列蔟rowkey列1列2列3列4列5列6rowkey0001C1(Map)列1 => 值1列2 => 值2列3 => 值3C2(Map)列4 => 值4列5 => 值5列6 => 值6"1" : "x",

2023-03-27 10:08:08 312

原创 Flink高手之路2-Flink集群的搭建

准备好数据文件上传hdfs首先要确保 hdfs 集群已经启动发现我们以前已经上传过了提交命令这个错误需要把flink-1.16.1与hadoop3进行集成。查看 flink web ui查看 hdfs web UI点击一个文件查看重启集群删除hdfs上以前创建的output文件夹提交任务,使用之前上传的数据查看结果杀掉hadoop001的master进程,并再次提交任务再次删除hdfs上之前创建的output文件夹再次提交任务,可以正常运行并查看结果,说明高可用搭建成功。

2023-03-23 22:07:46 363

原创 Hive数据仓库简介

Hive起源于Facebook,Facebook公司有着大量的日志数据,而Hadoop是实现了MapReduce模式开源的分布式并行计算的框架,可轻松处理大规模数据。然而MapReduce程序对熟悉Java语言的工程师来说容易开发,但对于其他语言使用者则难度较大。因此Facebook开发团队想设计一种使用SQL语言对日志数据查询分析的工具,而Hive就诞生于此,只要懂SQL语言,就能够胜任大数据分析方面的工作,还节省了开发人员的学习成本。

2023-03-21 15:05:49 559

原创 HBase高手之路4-Shell操作

describe '表名'注意:集群启动启动ZooKeeper启动hdfs启动HBASE进入shell命令行在HBase中,如果要对海量的数据进行扫描查询,尤其是全表扫描效率很低,可以使用过滤器Filter来提高查询的效率。过滤器Filter可以根据主键、列簇、列、版本号(时间戳)等条件对数据进行查询过滤。在HBase中,使用过滤器有两种方式,一种就是使用命令行基于jRubby语法的选项实现交互式查询,另一种是基于HBase的JAVA API的方式进行编程开发。

2023-03-20 20:32:23 959

原创 HBase高手之路2-HBase集群的搭建

Hbase高手之路 – 第二章 – HBase集群的搭建配置,Hadoop非高可用

2023-03-15 14:35:37 207

原创 Spark高手之路3—Spark运行架构

Spark 集群的独立部署环境中,不需要依赖其他的资源调度框架,自身就实现了资源调度的功能,所以环境中还有其他两个核心组件:Master 和 Worker,这里的 Master 是一个进程,主要负责资源的调度和分配,并进行集群的监控等职责,类似于 Yarn 环境中的 RM, 而Worker 呢,也是进程,一个 Worker 运行在集群中的一台服务器上,由 Master 分配资源对数据进行并行的处理和计算,类似于 Yarn 环境中 NM。在提交应用中,可以提供参数指定计算节点的个数,以及对应的资源。

2023-03-15 12:20:25 308

原创 Spark高手之路1—Spark简介

Spark官网Spark 是一种基于内存的快速、通用、可扩展的大数据分析计算引擎,相对于 Hadoop MapReduce 将中间结果保存在磁盘中, Spark 使用了内存保存中间结果, 能在数据尚未写入硬盘时在内存中进行运算.Spark 只是一个计算框架, 不像 Hadoop 一样包含了分布式文件系统和完备的调度系统, 如果要使用 Spark, 需要搭载其它的文件系统和更成熟的调度系统。

2023-03-09 08:31:17 1269 2

原创 HBase高手之路1-Hbase简介

HBase的原型是Google的BigTable论文,受到了该论文思想的启发,目前作为Hadoop的子项目来开发维护,用于支持结构化的数据存储。官方网站:http://hbase.apache.orgHBase是一个高可靠性、高性能、面向列、可伸缩的分布式存储系统,利用HBASE技术可在廉价PC Server上搭建起大规模结构化存储集群。HBase的目标是存储并处理大型的数据,更具体来说是仅需使用普通的硬件配置,就能够处理由成千上万的行和列所组成的大型数据。

2023-03-08 16:03:27 423 2

原创 Scala运算符

它只针对于整型数据. 因为计算机底层存储, 操作, 运算采用的都是数据的二进制补码形式, 且以后我们要经常和海量的数据打交道, 为了提高计算效率, 我们就可以使用位运算符来实现快速修改数据值的操作.所谓的原反补码, 其实指的都是二进制数据, 把十进制的数据转成其对应的二进制数据, 该二进制数据即为: 原码.(1)对于除号“/”,它的整数除和小数除是有区别的:整数之间做除法时,只保留整数部分而舍弃小数部分。关于二进制的数据, 最前边的那一位叫: 符号位, 0表示正数, 1表示负数. 其他位叫: 数值位.

2023-03-08 11:01:20 205

原创 Spark高手之路2—Spark安装配置

local 本地模式毕竟只是用来进行练习演示的,真实工作中还是要将应用提交到对应的集群中去执行,这里我们来看看只使用 Spark 自身节点运行的集群模式,也就是我们所谓的独立部署(Standalone)模式。⚫ 参数 3 含义:指定保存 Application 历史记录的个数,如果超过这个值,旧的应用程序信息将被删除,这个是内存中的应用数,而不是页面上显示的应用数。所谓的 Local 模式,就是不需要其他任何节点资源就可以在本地执行 Spark 代码的环境,一般用于教学,调试,演示等。

2023-03-07 17:52:53 525

原创 Balsamiq Wireframes 安装配置

Balsamiq Wireframes官方版是一款十分不错的线框图工具。Balsamiq Wireframes最新版可以帮助用户在开会时或者平时能够快速的画出自己想要的草图和理论。Balsamiq Wireframes界面清晰、使用便捷,支持通过图像或交互式PDF在网络上共享或显示线框。Balsamiq线框编辑器界面由五个主要区域组成:工具栏,UI库,画布,导航器面板和属性面板。每个都在下面描述。

2023-03-07 10:01:16 624

原创 Scala变量和数据类型

(3)Nothing,可以作为没有正常返回值的方法的返回类型,非常直观的告诉你这个方法不会正常返回,而且由于 Nothing 是其他任意类型的子类,他还能跟要求返回值的方法兼容。在将 String 类型转成基本数值类型时,要确保 String 类型能够转成有效的数据,比如我们可以把"123",转成一个整数,但是不能把"hello"转成一个整数。由于Java有基本类型,而且基本类型不是真正意义的对象,即使后面产生了基本类型的包装类,但是仍然存在基本数据类型,所以Java语言并不是真正意思的面向对象。

2023-03-04 16:01:29 598

原创 Flink高手之路1一Flink的简介

大数据的计算引擎,发展过程有四个阶段第一代:Hadoop的MapReduce,批处理,中间结果放在HDFS上也就是硬盘上,速度很慢,效率很低第二代:支持DAG(有向无环图),Tez和Oozie,批处理第三代:内存计算,Spark,支持批处理和流(实时)处理,比MR快100倍以上第四代:Flink,真正的流批一体,比Spark更快Apache Flink是由Apache软件基金会开发的开源流处理框架,其核心是用Java和Scala编写的分布式流数据流引擎。

2023-02-25 08:13:12 434

原创 Scala安装配置

Scala(斯嘎拉)这个名字来源于"Scalable Language(可伸缩的语言)",它是一门基于JVM的多范式编程语言,通俗的说:Scala是一种运行在JVM上的函数式的面向对象语言。之所以这样命名,是因为它的设计目标是:随着用户的需求一起成长。Scala可被广泛应用于各种编程任务, 从编写小型的脚本到构建巨型系统,它都能胜任。正因如此, Scala得以提供一些出众的特性, 例如: 它集成了面向对象编程和面向函数式编程的各种特性, 以及更高层的并发模型。

2023-02-20 22:31:11 412 9

原创 Java集合基础

集合是一种容器,用来装数据的,类似于数组。但是我们有数组,为啥还学习集合?数组定义完成并启动后,长度就固定了。集合大小可变,开发中用的更多。

2023-02-02 08:00:00 199

原创 Java字符串

编译器将这个"a" + “b”+“c"作为常量表达式,在编译时进行优化,直接取表达式结果"abc”,这里没有创建新的对象,而是从JVM字符串常量池中获取之前已经存在的"abc"对象。s1使用的是在字符串常量池中的地址,字符串进行拼接时会使用 StringBuilder 类,拼接完成后会使用 toString 方法再堆内存中开辟一块地址,两个地址是不相同的。StringBuilder是字符串的缓冲区, 我们可以将其理解为是一种容器,这个容器可以存储任意数据类型,但只要进入到这个容器,全部变成字符串。

2023-02-01 08:00:00 218

原创 Java面向对象基础

面向对象并不是一个技术,而是一种编程的指导思想,让我们以什么形式 组织代码;以什么思路 解决问题。为什么要学习面向对象?因为生活中,我们解决问题时,就是采用这种指导思想去解决的,所以,我们写程序去解决问题时,如果也能采用这种指导思想,就会使编程变得非常简单,程序也便于人理解 。比如有顾客去买手机,顾客是对象,售货员也是对象,钱是对象,手机也是对象。在我们前面的学习中,Scanner 和 Random都是 Java已经写好的类,但如果我们要解决的问题 Java 没有提供怎么办?面向对象,重点学什么?Java

2023-01-31 16:29:13 309

原创 Java循环综合案例

已知一个数组 arr = {11, 22, 33, 44, 55};交换后的数组 arr = {55, 44, 33, 22, 11};键盘录入一个数据,查找该数据在数组中的索引,并在控制台输出找到的索引值,如果没有查找到,则输出-1。有这样的一个数组,元素是 {68,27,95,88,171,996,51,210}规则是:从任意一个数字开始报数,当你要报的数字包含7或者是7的倍数时都要说:过。已知一个数组 arr = {19, 28, 37, 46, 50};设计一个方法, 查找元素在数组中的索引位置。

2023-01-29 19:51:22 614

原创 Java数组

数组指的是一种容器,可以用来存储同种数据类型的多个值。那么为什么要使用数组呢?在销售部门中,如果我们想要对部门中销售情况进行分析,我们凭借基本数据类型中的 int 类型也可以实现,但是人数多的话,就需要创建多个变量,但这样感觉特别复杂,光是想变量名就感觉头疼,但如果使用数组,我们可以把数据通过简短的代码对数据进行存储。使用思路今后若要操作的多数据,属于同一组数据就可以考虑使用数组容器进行维护格式一:数据类型[ ] 数组名范例:int[ ] array格式二:数据类型 数组名[ ]

2023-01-25 17:13:52 1097

原创 Java流程控制语句

流程控制语句:通过一些语句,来控制程序的【执行】流程好,我们先了解了一下什么是循环语句:循环语句可以将一段代码逻辑,重复的执行很多次。上面的例子中,我们就使用了循环语句来重复执行密码验证,直到循环次数结束。for(初始化语句;条件判断语句;条件控制语句) {循环体语句;1、打印字符串简单了解了循环之后,我们先来进行一个简单的练习,打印 3 行 “跑圈”介绍一下代码:int i = 1是初始化语句,定义一个初始化的变量i

2023-01-19 21:42:05 1643

原创 Java方法(函数)

方法(method)一段具有独立功能的代码块,不调用就不执行可以将挤在一起的臃肿代码,按照功能进行分类管理方法的出现,可以提高代码的复用性public static void 方法名() {// 方法体 } //举例 public static void show() {// 方法体 }方法名();show();/*方法(函数)介绍:一段具有独立功能的代码块,不调用就不执行。好处:- 可以将挤在一起的臃肿代码,按照功能进行分类管理,提高代码的可阅读性。

2023-01-19 10:41:48 583

原创 Java运算符

符号作用说明++自增变量自身的值加1自减变量自身的值减1++ 和 – 既可以放在变量的后边,也可以放在变量的前边。把一个取值范围小的数值或者变量,赋值给另一个取值范围大的变量也可以这样理解,比如我们把一个小水桶里的水,倒入一个大水桶里,这肯定是没有问题。把一个取值范围大的数值或者变量,赋值给另一个取值范围小的变量,不允许直接赋值,需要加入强制转换目标数据类型 变量名 =(目标数据类型) 被强转的数据;也就是说,我们把一个大桶中的东西,导入小桶中,但是可能会溢出来。/*

2023-01-17 09:54:43 311

原创 Linux基础命令

我们使用的是root用户,所以在删除文件的时候有很高的权限,所以系统会提示我们确认是否删除文件/文件夹,如果使用 -f 参数,则会强制删除文件/文件夹,不进行提示,但使用时注意小心谨慎。请使用echo并配合反引号,输出内容:我当前的工作目录是:`具体的工作目录路径`,并结合重定向符,将输出结果覆盖写入work.txt文件。在HOME目录内有一个test文件夹,文件夹内有一个文件hello.txt,请描述文件的路径,需要使用符号~

2023-01-16 23:52:53 508

原创 Java基础语法

注释是在程序指定位置添加的说明性信息,简单理解,就是对代码的一种解释。关键字:被 Java 赋予了特定涵义的英文单词。注意事项:Java 中的关键字,已经被赋予了特殊的涵义,这些单词不允许使用,所以我们再创建 Java 类或者变量时尽量避开关键词。这里先不说明,在后面会进行讲解。/*变量名注意事项:1.变量不允许重复定义2.一条语句,可以定义出多个变量,中间需要使用逗号进行分隔3.变量在使用之前一定要进行赋值4.TODO:变量的作用域范围。

2023-01-15 17:15:17 430 2

网络大数据采集期末试卷

网络大数据采集期末试卷 包含选择题、简答题、论述题

2022-12-28

Python语言开发工具选择

Python语言开发工具选择

2022-04-10

完全数python题目解析

完全数python 如果一个数除该数本身之外的所有因子之和等于这个数,该数是完数。例如:6=1+2+3,6是完数。定义判断完数的函数isPerfect(),如果是返回True,不是返回False‬‫‬ 输入一个数,调用该函数判断是否为完数,如果是输出“是完数”,如果不是输出“不是完数”

2022-04-10

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除