自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(32)
  • 收藏
  • 关注

原创 Windows操作系統 下MySQL8.0主從同步

Windows操作系統 下MySQL8.0主從同步配置前保持要同步的數據庫數據結構,數據一致主數據庫 配置文件my.inf添加my.inf一般在C:\Program Files\MySQL\MySQL Server 8.0下或者C:\ProgramData\MySQL\MySQL Server 8.0下[mysqld]server-id = 1 #設置server-id=1log-bin=mysql-bin # 啟動同步日誌文件**`設置要同步的數據庫`**binlog-do-db=wo

2020-11-06 19:56:44 374

原创 【无标题】【博学谷学习记录】超强总结,用心分享 | DolphinScheduler狂野大数据-学习分享

Apache DolphinScheduler是一个分布式、去中心化、易扩展的可视化DAG工作流任务调度系统 | 框架 | 组件官网地址:调度的作用:当项目中存在多个多种定时任务调度需求时,调度工具实现多种任务的编排、计划、周期执行。对于画像项目, 主要调度的任务, 数据从hive导入es, 执行标签更新的代码DS是一个分布式、去中心化、易扩展的可视化DAG工作流任务调度系统,用于定时任务的调度,拥有一个可视化操作平台,简化了操作,只需进行简单的拖拽点击即可创建工作流。

2023-07-24 17:21:31 286

原创 【博学谷学习记录】超强总结,用心分享 | 狂野大数据-Nginx日志的处理学习分享

Nginx通过正则表达式进行解析,在进行后续处理。在spark中使用正则表达式,需要使用符合java的,因为spark底层相当于是基于java实现的。

2023-07-17 18:02:46 190

原创 【博学谷学习记录】超强总结,用心分享 | 狂野大数据-挖掘类标签学习分享

例如:随着人工智能的不断发展,机器学习这门技术也越来越重要,很多人都开启了学习机器学习,本文就介绍了机器学习的基础内容。MLLIB是Spark的机器学习库。提供了利用Spark构建大规模和易用性的机器学习平台,组件:(1) ML 算法:包括了分类、回归、聚类、降维、协同过滤(2) Featurization特征化:特征抽取、特征转换、特征降维、特征选择。

2023-07-10 16:46:54 320

原创 【博学谷学习记录】超强总结,用心分享 | 狂野大数据-ElasticSearch学习分享

Elasticsearch 是一个分布式、RESTful 风格的搜索和数据分析引擎,能够解决不断涌现出的各种用例。作为 Elastic Stack 的核心,Elasticsearch 会集中存储您的数据,让您飞快完成搜索,微调相关性,进行强大的**分析**,并轻松缩放规模

2023-07-03 17:19:52 230

原创 【博学谷学习记录】超强总结,用心分享 | 狂野大数据structuredStreaming-学习分享

​ 结构化流是构建在Spark SQL处理引擎之上的一个流式的处理引擎, 主要是针对无界数据的处理操作. 对于结构化流同样也支持多种语言的操作API: Java Python Scala R …

2023-06-26 21:22:00 209

原创 【博学谷学习记录】超强总结,用心分享 | 狂野大数据-SparkSQL函数学习分享

第一步: 在Python中创建一个Python的函数, 在这个函数中书写自定义函数的功能的逻辑代码即可第二步: 将Python函数注册到Spark SQL中, 成为Spark SQL的函数注册方式一: udf对象 = SparkSession.udf.register(参数1,参数2, 参数3)参数1: 定义UDF函数的名称, 可用于SQL风格参数2: 需要将那个Python的函数进行注册, 书写对应python函数的名称参数3: 声明UDF函数的返回值类型。

2023-06-12 16:54:15 250

原创 【无标题】【博学谷学习记录】超强总结,用心分享 | 狂野大数据-SparkSQL入门案例学习分享

一个dataFrame表示是一个二维的表, 一个二维表, 必然存在 行 列 表结构描述信息表结构描述信息(元数据): StructType字段: StructField定义: 字段的名称, 字段的类型, 字段是否可以为null认为: 在一个StructType对象下, 是由多个StructField组成的, 构建了一个完整的元数据信息行: ROW对象列: Column对象。

2023-06-05 14:24:36 96

原创 【博学谷学习记录】超强总结,用心分享 | 狂野大数据-Spark-RDD学习分享

RDD: 弹性分布式数据集出现目的: 为了能够支持更加高效的迭代计算操作RDD是一个抽象的数据模型, RDD本身并不存储任何的数据, 仅仅是一个数据传输的管道, 在这个管道中, 作为使用者,只需要告知给RDD应该从哪里读, 中间需要进行什么样的转换逻辑操作, 以及最后需要将结果输出到什么位置即可, 一旦启动后, RDD会根据用户设定的规则, 完成整个处理操作RDD 支持在内存中进行计算, 部分迭代操作支持直接在内存中进行迭代处理,这是Spark取代MR的主要原因之一。

2023-05-29 16:12:21 181

原创 【博学谷学习记录】超强总结,用心分享 | 狂野大数据-Spark学习分享

Spark是一款用于大规模数据处理分布式的分析引擎与MapReduce比较MR: 是一款用于大规模数据处理分布式的分析引擎MR存在的弊端:1- 使用API相对比较低级: 大量的功能代码都需要程序员自己来实现2- 计算效率慢: 大量的经过磁盘和内存之间的交互, 基于磁盘计算 IO比较大 (IO密集型框架)3- 迭代计算非常不方便什么是迭代计算:在计算过程中, 需要将计算流程划分为N个阶段, 每个阶段之间互相依赖, 后一个阶段必须等待前一个阶段执行完成后, 然后才能执行下一个阶段。

2023-05-22 16:12:09 156

原创 【博学谷学习记录】超强总结,用心分享 | 狂野大数据-Flume学习分享

Flume目前是Apache旗下的一款顶级开源项目, 最初是由cloudera公司开发的, 后期贡献给了Apache, Flume是一款专门用于数据采集的工具, 主要的目的将数据从一端传输到另一端的操作​ Flume也是使用Java语言编写的, Flume一般部署在数据采集节点​ 在Flume中提供多种数据源的组件 和 多种目的地组件, 主要的目的是为了能够适应更多的数据采集场景使用Flume核心就是学习如何配置Flume的采集脚本Flume的运行机制:整个Flume启动后, 就是一个agent实例对象,

2023-05-16 16:50:37 135

原创 【博学谷学习记录】超强总结,用心分享 | 狂野大数据-pandas学习分享

在Pandas中,两个df对象如果进行加法运算,则要遵循以下原则:① 索引相同,则相同索引行进行合并操作② 索引不同,则也保留所有元素,但是元素值都设置为NaN。

2023-05-10 10:26:46 95

原创 【博学谷学习记录】超强总结,用心分享 | 狂野大数据-python面向对象学习分享

在python中也是构建类的, python3中支持经典类和新式类经典类: 不由任意内置类型派生出的类, 称之为经典类class 类名 : 代码 . . . . . .新式类:class 类名() : 代码 . . . . . .这就是一个类,只不过里面什么都没有!其中,类名不区分大小写,遵守一般的标识符的命名规则(以字母、数字和下划线构成,并且不能以数字开头),一般为了和方法名相区分,类名的首字母一般大写!(大驼峰法)案例: 定义一个 ‘人’ 类。

2023-05-03 11:48:18 111

原创 【博学谷学习记录】超强总结,用心分享 | 狂野大数据-python学习分享

python的语法相较于其他开发语言的语法是比较简洁的,缺点就是运行速度相对较慢,因为底层封装好了复杂的语句。

2023-04-23 11:58:40 82

原创 【博学谷学习记录】超强总结,用心分享 | 狂野大数据-Phenix学习分享

Phoenix是属于Apache旗下的一款顶级开源的基于HBase的工具,此工具提供一种权限的方式来操作HBase中数据(SQL),同时Phoenix对HBase进行大量的优化工作, 能够让我们更加有效的操作HBase​ Phoenix的出现仅仅时为HBase提供了权限的方式, 并不是数据分析的引擎, 所以一般也不会使用Phoenix + HBase构建数仓, 传统的离线数仓 依然是基于Hadoop + HIVE​ Phoenix更主要做的是一种即席查询。

2023-04-17 17:14:14 197

原创 【博学谷学习记录】超强总结,用心分享 | 狂野大数据-HBase学习分享

hbase的shell命令,相对而言就scan的过滤查询比较难,其他的都是简单的语句,有许多的过滤器的使用方法可以到官方api查询使用方法。

2023-04-10 10:20:00 120

原创 【博学谷学习记录】超强总结,用心分享 | 狂野大数据-kafka学习分享

1. 消息队列的基本介绍消息: 数据 只不过这个数据具有流动的状态队列: 存储数据的容器, 只不过这个容器具有FIFO(先进先出)特性消息队列: 数据在队列中, 从队列的一端传递到另一端的过程, 数据在整个队列中产生了一种流动状态2. 消息队列的作用同步操作装换为异步操作应用的解耦合流量削峰消息驱动系统3. 消息队列的两种消费模式。

2023-04-03 10:08:27 127

原创 【博学谷学习记录】超强总结,用心分享 | 狂野大数据-聚合函数增强--grouping sets

根据不同的维度组合进行聚合,等价于将不同维度的GROUP BY结果集进行UNION ALL。Presto的语法和Hive的语法有一些区别,使用时需要注意,使用grouping sets推荐在Presto执行,执行速度更快,但在Presto写sql时它的语句提醒功能没有Hive那么健全,可以在Hive将sql写好,然后到Presto执行。

2023-03-27 12:03:30 210

原创 【博学谷学习记录】超强总结,用心分享 | 狂野大数据-Join优化操作

不管是Bucket Map Join,SMB Map Join都是基于map Join的,中标,大表就拆成小表就就可以进行join了,数据倾斜的解决方案原理都是将重复较多的数据,全部到一个reduce端的数据放在单独的map端进行处理,在和原来的map处理好的数据进行union all。

2023-03-20 11:41:43 142

原创 【博学谷学习记录】超强总结,用心分享 | 狂野大数据-sqoop数据库导入

sqoop是apache旗下一款“Hadoop和关系数据库服务器之间传送数据”的工具。导入数据:MySQL,Oracle导入数据到Hadoop的HDFS、HIVE、HBASE等数据存储系统;导出数据:从Hadoop的HDFS、HIVE中导出数据到关系数据库mysql等。Sqoop工作机制是将导入或导出命令翻译成mapreduce程序来实现。在翻译出的mapreduce中主要是对inputformat和outputformat进行定制。

2023-03-13 10:07:14 205

原创 【博学谷学习记录】超强总结,用心分享 | 狂野大数据-Hive函数

1、当在进行数据分析时,如果Hive现存的所有函数都无法满足需求,则可以自定义函数2、自定义函数的分类UDF : 一进一出的函数 substring、floor、reverseUDTF: 一进多出的函数 explodeUDAF: 多进一出的函数 聚合函数(count、max、min)1、 继承UDF类,重写evaluete()方法/*手机号: 13812345678 ---> 138****56782、

2023-03-05 23:53:15 253

原创 【博学谷学习记录】超强总结,用心分享 | 狂野大数据-Hive数据库表操作

hive的查询和mysql的sql查询有很多的相同,join查询几乎一模一样,hql和sql只是会根据各自环境的要求进行一些自我的变化。

2023-02-28 16:20:59 166

原创 【博学谷学习记录】超强总结,用心分享 | 狂野大数据-Hive

1、Hive将HDFS上的结构化数据文件映射成一张张的表,哪个文件对应哪张表,每张表的表结构信息这些数据被称为元数据MetaData,都需要保存起来,而Hive本身是不存任何数据的,这些数据在本课程中都由第三方数据库MySQL存储。4、Hive提供的SQL称为HQL,和普通的SQL的功能类似,但是本质完全不同,底层默认就是MapReduce,但是底层也可以改成其他的计算引擎(Tez,Spark)1、创建表(Hive创建表内部的结构和传统的数据库的SQL除了语法相似,内部原理完全不同)

2023-02-20 16:07:48 133

原创 【博学谷学习记录】超强总结,用心分享 | 狂野大数据-MapReduce

数据同MapReduce分区案例数据思路:1、将州名作为K2,将确诊人数 死亡人数作为V22、可以将V2封装成一个Java类,如果一个自定义类出现在MapReduce中,必须保证该类能够被序列化和反序列化自定义类,必须根据条件实现Writable/WritableComparableWritable#应用场景:JavaBean类对象不作为K2,不需要能够被排序//实现序列化@Override//实现反序列化@Override#应用场景:JavaBean类对象作为K2,需要能够被排序。

2023-02-13 15:23:28 243

原创 【博学谷学习记录】超强总结,用心分享 | 狂野大数据-HDFS学习分享

1、2、HDFS主要是存储TB和PB,EB级别文件3、HDFS上存储的文件只能追加写入(在尾部加入内容),不能随机修改(在中间修改),HDFS除了最后一个Bock之外,前边的所有的Block一旦定型,永远不能修改4、HDFS的读写速度有延迟,不能保证实时,如果你对时效性要求比较高,则不要使用HDFS5、HDFS适合存储大文件,不适合存储小文件:5.1)一个文件,不管大小,都会占用一条元数据,一条元数据大概是150字节5.2)在工作时,元数据是保存在NameNode主机的内存中,内存如果有限的情况下

2023-02-06 22:08:51 275

原创 【博学谷学习记录】超强总结,用心分享 | 狂野大数据第三周-Hadoop学习分享

Hadoop学习分享

2023-01-30 14:34:04 296

原创 【博学谷学习记录】超强总结,用心分享 | 狂野大数据第二周-Shell编程学习分享

shell编程在大数据多用于书写自动化,不需要牢记,但用到时需要知道大概需要那些命令,做到心里有数,查阅资料也方便。shell脚本执行方式Shell 是一个用 C 语言编写的程序,通过 Shell 用户可以访问操作系统内核服务。它类似于 DOS 下的 command 和后来的 cmd.exe。Shell 既是一种命令语言,又是一种程序设计语言。Shell script 是一种为 shell 编写的脚本程序。Shell 编程一般指 shell脚本编程,不是指开发 shell 自身。

2023-01-09 13:41:40 519

原创 【博学谷学习记录】超强总结,用心分享 | 狂野大数据第一周-Linux高级学习分享

linux系统(CentOS)安、Linux基础命令

2023-01-03 18:32:48 135

原创 Java标识符的命名规范

Java中的包、类、方法、参数和变量的名称总称为标识符下面代码中红字为标识符:com.neuedu.ch01:包名FirstTest:类名main:方法名args:参数和变量名称标识符的命名规则必须以字母、下划线(_)或美元符号($)开头;余下的字符可以是下划线、美元符号或任何的字母或数字,长度不限;标识符中不能有空格;不能使用Java中的关键字或者保留字做为标识符;命名规...

2019-09-26 18:37:01 459

原创 简介 JDK、JRE 和 JVM

1、 JVM:java虚拟机 。JVM是Java Virtual Machine(Java虚拟机)的缩写,JVM是一种用于计算设备的规范,它是一个虚构出来的计算机,是通过在实际的计算机上仿真模拟各种计算机功能来实现的。作用:保证java语言跨平台。    2、JRE:java运行环境 jre=java虚拟机+核心类库。JRE(Java Runtime Environment,Java运行...

2019-09-26 18:27:07 98

原创 MySQL常务事务的特性

1、事物四大特性(ACID)原子性(atomicity):一个事务必须视为一个不可分割的最小工作单元,整个事务中的所有操作要么全部提交成功,要么全部失败回滚,对于一个事务来说,不可能只执行其中的一部分操作,这就是事务的原子性。一致性(consistency):数据库总数从一个一致性的状态转换到另一个一致性的状态。隔离性(isolation):一个事务所做的修改在最终提交以前,对其他事务是不可...

2019-09-19 19:18:05 75

原创 Mysql架构以及常用的三种存储引擎

Mysql架构以及常用的三种存储引擎字符集(character)新的改变功能快捷键合理的创建标题,有助于目录的生成如何改变文本的样式插入链接与图片如何插入一段漂亮的代码片生成一个适合你的列表创建一个表格设定内容居中、居左、居右SmartyPants创建一个自定义列表如何创建一个注脚注释也是必不可少的KaTeX数学公式新的甘特图功能,丰富你的文章UML 图表FLowchart流程图导出与导入导出导入...

2019-09-18 09:31:47 131

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除