泽月贝-CSDN博客

原创 Windows操作系統下MySQL8.0主從同步

Windows操作系統下MySQL8.0主從同步配置前保持要同步的數據庫數據結構，數據一致主數據庫配置文件my.inf添加my.inf一般在C:\Program Files\MySQL\MySQL Server 8.0下或者C:\ProgramData\MySQL\MySQL Server 8.0下[mysqld]server-id = 1 #設置server-id=1log-bin=mysql-bin # 啟動同步日誌文件**`設置要同步的數據庫`**binlog-do-db=wo

2020-11-06 19:56:44 374

原创【无标题】【博学谷学习记录】超强总结，用心分享 | DolphinScheduler狂野大数据-学习分享

Apache DolphinScheduler是一个分布式、去中心化、易扩展的可视化DAG工作流任务调度系统 | 框架 | 组件官网地址:调度的作用：当项目中存在多个多种定时任务调度需求时，调度工具实现多种任务的编排、计划、周期执行。对于画像项目, 主要调度的任务, 数据从hive导入es, 执行标签更新的代码DS是一个分布式、去中心化、易扩展的可视化DAG工作流任务调度系统，用于定时任务的调度，拥有一个可视化操作平台，简化了操作，只需进行简单的拖拽点击即可创建工作流。

2023-07-24 17:21:31 286

原创【博学谷学习记录】超强总结，用心分享 | 狂野大数据-Nginx日志的处理学习分享

Nginx通过正则表达式进行解析，在进行后续处理。在spark中使用正则表达式，需要使用符合java的，因为spark底层相当于是基于java实现的。

2023-07-17 18:02:46 190

原创【博学谷学习记录】超强总结，用心分享 | 狂野大数据-挖掘类标签学习分享

例如：随着人工智能的不断发展，机器学习这门技术也越来越重要，很多人都开启了学习机器学习，本文就介绍了机器学习的基础内容。MLLIB是Spark的机器学习库。提供了利用Spark构建大规模和易用性的机器学习平台，组件：(1) ML 算法：包括了分类、回归、聚类、降维、协同过滤(2) Featurization特征化：特征抽取、特征转换、特征降维、特征选择。

2023-07-10 16:46:54 320

原创【博学谷学习记录】超强总结，用心分享 | 狂野大数据-ElasticSearch学习分享

Elasticsearch 是一个分布式、RESTful 风格的搜索和数据分析引擎，能够解决不断涌现出的各种用例。作为 Elastic Stack 的核心，Elasticsearch 会集中存储您的数据，让您飞快完成搜索，微调相关性，进行强大的**分析**，并轻松缩放规模

2023-07-03 17:19:52 230

原创【博学谷学习记录】超强总结，用心分享 | 狂野大数据structuredStreaming-学习分享

结构化流是构建在Spark SQL处理引擎之上的一个流式的处理引擎, 主要是针对无界数据的处理操作. 对于结构化流同样也支持多种语言的操作API: Java Python Scala R …

2023-06-26 21:22:00 209

原创【博学谷学习记录】超强总结，用心分享 | 狂野大数据-SparkSQL函数学习分享

第一步: 在Python中创建一个Python的函数, 在这个函数中书写自定义函数的功能的逻辑代码即可第二步: 将Python函数注册到Spark SQL中, 成为Spark SQL的函数注册方式一: udf对象 = SparkSession.udf.register(参数1,参数2, 参数3)参数1: 定义UDF函数的名称, 可用于SQL风格参数2: 需要将那个Python的函数进行注册, 书写对应python函数的名称参数3: 声明UDF函数的返回值类型。

2023-06-12 16:54:15 250

原创【无标题】【博学谷学习记录】超强总结，用心分享 | 狂野大数据-SparkSQL入门案例学习分享

一个dataFrame表示是一个二维的表, 一个二维表, 必然存在行列表结构描述信息表结构描述信息(元数据): StructType字段: StructField定义: 字段的名称, 字段的类型, 字段是否可以为null认为: 在一个StructType对象下, 是由多个StructField组成的, 构建了一个完整的元数据信息行: ROW对象列: Column对象。

2023-06-05 14:24:36 96

原创【博学谷学习记录】超强总结，用心分享 | 狂野大数据-Spark-RDD学习分享

RDD: 弹性分布式数据集出现目的: 为了能够支持更加高效的迭代计算操作RDD是一个抽象的数据模型, RDD本身并不存储任何的数据, 仅仅是一个数据传输的管道, 在这个管道中, 作为使用者,只需要告知给RDD应该从哪里读, 中间需要进行什么样的转换逻辑操作, 以及最后需要将结果输出到什么位置即可, 一旦启动后, RDD会根据用户设定的规则, 完成整个处理操作RDD 支持在内存中进行计算, 部分迭代操作支持直接在内存中进行迭代处理,这是Spark取代MR的主要原因之一。

2023-05-29 16:12:21 181

原创【博学谷学习记录】超强总结，用心分享 | 狂野大数据-Spark学习分享

Spark是一款用于大规模数据处理分布式的分析引擎与MapReduce比较MR: 是一款用于大规模数据处理分布式的分析引擎MR存在的弊端:1- 使用API相对比较低级: 大量的功能代码都需要程序员自己来实现2- 计算效率慢: 大量的经过磁盘和内存之间的交互, 基于磁盘计算 IO比较大 (IO密集型框架)3- 迭代计算非常不方便什么是迭代计算:在计算过程中, 需要将计算流程划分为N个阶段, 每个阶段之间互相依赖, 后一个阶段必须等待前一个阶段执行完成后, 然后才能执行下一个阶段。

2023-05-22 16:12:09 156

原创【博学谷学习记录】超强总结，用心分享 | 狂野大数据-Flume学习分享

Flume目前是Apache旗下的一款顶级开源项目, 最初是由cloudera公司开发的, 后期贡献给了Apache, Flume是一款专门用于数据采集的工具, 主要的目的将数据从一端传输到另一端的操作 Flume也是使用Java语言编写的, Flume一般部署在数据采集节点在Flume中提供多种数据源的组件和多种目的地组件, 主要的目的是为了能够适应更多的数据采集场景使用Flume核心就是学习如何配置Flume的采集脚本Flume的运行机制:整个Flume启动后, 就是一个agent实例对象,

2023-05-16 16:50:37 135

原创【博学谷学习记录】超强总结，用心分享 | 狂野大数据-pandas学习分享

在Pandas中，两个df对象如果进行加法运算，则要遵循以下原则：① 索引相同，则相同索引行进行合并操作② 索引不同，则也保留所有元素，但是元素值都设置为NaN。

2023-05-10 10:26:46 95

原创【博学谷学习记录】超强总结，用心分享 | 狂野大数据-python面向对象学习分享

在python中也是构建类的, python3中支持经典类和新式类经典类: 不由任意内置类型派生出的类, 称之为经典类class 类名 : 代码 . . . . . .新式类:class 类名() : 代码 . . . . . .这就是一个类，只不过里面什么都没有！其中，类名不区分大小写，遵守一般的标识符的命名规则（以字母、数字和下划线构成，并且不能以数字开头），一般为了和方法名相区分，类名的首字母一般大写！（大驼峰法）案例: 定义一个 ‘人’ 类。

2023-05-03 11:48:18 111

原创【博学谷学习记录】超强总结，用心分享 | 狂野大数据-python学习分享

python的语法相较于其他开发语言的语法是比较简洁的，缺点就是运行速度相对较慢，因为底层封装好了复杂的语句。

2023-04-23 11:58:40 82

原创【博学谷学习记录】超强总结，用心分享 | 狂野大数据-Phenix学习分享

Phoenix是属于Apache旗下的一款顶级开源的基于HBase的工具,此工具提供一种权限的方式来操作HBase中数据(SQL),同时Phoenix对HBase进行大量的优化工作, 能够让我们更加有效的操作HBase Phoenix的出现仅仅时为HBase提供了权限的方式, 并不是数据分析的引擎, 所以一般也不会使用Phoenix + HBase构建数仓, 传统的离线数仓依然是基于Hadoop + HIVE Phoenix更主要做的是一种即席查询。

2023-04-17 17:14:14 197

原创【博学谷学习记录】超强总结，用心分享 | 狂野大数据-HBase学习分享

hbase的shell命令，相对而言就scan的过滤查询比较难，其他的都是简单的语句，有许多的过滤器的使用方法可以到官方api查询使用方法。

2023-04-10 10:20:00 120

原创【博学谷学习记录】超强总结，用心分享 | 狂野大数据-kafka学习分享

1. 消息队列的基本介绍消息: 数据只不过这个数据具有流动的状态队列: 存储数据的容器, 只不过这个容器具有FIFO(先进先出)特性消息队列: 数据在队列中, 从队列的一端传递到另一端的过程, 数据在整个队列中产生了一种流动状态2. 消息队列的作用同步操作装换为异步操作应用的解耦合流量削峰消息驱动系统3. 消息队列的两种消费模式。

2023-04-03 10:08:27 127

原创【博学谷学习记录】超强总结，用心分享 | 狂野大数据-聚合函数增强--grouping sets

根据不同的维度组合进行聚合，等价于将不同维度的GROUP BY结果集进行UNION ALL。Presto的语法和Hive的语法有一些区别，使用时需要注意，使用grouping sets推荐在Presto执行，执行速度更快，但在Presto写sql时它的语句提醒功能没有Hive那么健全，可以在Hive将sql写好，然后到Presto执行。

2023-03-27 12:03:30 210

原创【博学谷学习记录】超强总结，用心分享 | 狂野大数据-Join优化操作

不管是Bucket Map Join，SMB Map Join都是基于map Join的，中标，大表就拆成小表就就可以进行join了，数据倾斜的解决方案原理都是将重复较多的数据，全部到一个reduce端的数据放在单独的map端进行处理，在和原来的map处理好的数据进行union all。

2023-03-20 11:41:43 142

原创【博学谷学习记录】超强总结，用心分享 | 狂野大数据-sqoop数据库导入

sqoop是apache旗下一款“Hadoop和关系数据库服务器之间传送数据”的工具。导入数据：MySQL，Oracle导入数据到Hadoop的HDFS、HIVE、HBASE等数据存储系统；导出数据：从Hadoop的HDFS、HIVE中导出数据到关系数据库mysql等。Sqoop工作机制是将导入或导出命令翻译成mapreduce程序来实现。在翻译出的mapreduce中主要是对inputformat和outputformat进行定制。

2023-03-13 10:07:14 205

原创【博学谷学习记录】超强总结，用心分享 | 狂野大数据-Hive函数

1、当在进行数据分析时，如果Hive现存的所有函数都无法满足需求，则可以自定义函数2、自定义函数的分类UDF : 一进一出的函数 substring、floor、reverseUDTF: 一进多出的函数 explodeUDAF: 多进一出的函数聚合函数（count、max、min）1、继承UDF类，重写evaluete()方法/*手机号： 13812345678 ---> 138****56782、

2023-03-05 23:53:15 253

原创【博学谷学习记录】超强总结，用心分享 | 狂野大数据-Hive数据库表操作

hive的查询和mysql的sql查询有很多的相同，join查询几乎一模一样，hql和sql只是会根据各自环境的要求进行一些自我的变化。

2023-02-28 16:20:59 166

原创【博学谷学习记录】超强总结，用心分享 | 狂野大数据-Hive

1、Hive将HDFS上的结构化数据文件映射成一张张的表，哪个文件对应哪张表，每张表的表结构信息这些数据被称为元数据MetaData，都需要保存起来，而Hive本身是不存任何数据的，这些数据在本课程中都由第三方数据库MySQL存储。4、Hive提供的SQL称为HQL，和普通的SQL的功能类似，但是本质完全不同，底层默认就是MapReduce，但是底层也可以改成其他的计算引擎（Tez，Spark）1、创建表(Hive创建表内部的结构和传统的数据库的SQL除了语法相似，内部原理完全不同)

2023-02-20 16:07:48 133

原创【博学谷学习记录】超强总结，用心分享 | 狂野大数据-MapReduce

数据同MapReduce分区案例数据思路：1、将州名作为K2，将确诊人数死亡人数作为V22、可以将V2封装成一个Java类，如果一个自定义类出现在MapReduce中，必须保证该类能够被序列化和反序列化自定义类，必须根据条件实现Writable/WritableComparableWritable#应用场景：JavaBean类对象不作为K2，不需要能够被排序//实现序列化@Override//实现反序列化@Override#应用场景：JavaBean类对象作为K2，需要能够被排序。

2023-02-13 15:23:28 243

原创【博学谷学习记录】超强总结，用心分享 | 狂野大数据-HDFS学习分享

1、2、HDFS主要是存储TB和PB，EB级别文件3、HDFS上存储的文件只能追加写入（在尾部加入内容），不能随机修改（在中间修改），HDFS除了最后一个Bock之外，前边的所有的Block一旦定型，永远不能修改4、HDFS的读写速度有延迟，不能保证实时，如果你对时效性要求比较高，则不要使用HDFS5、HDFS适合存储大文件，不适合存储小文件：5.1）一个文件，不管大小，都会占用一条元数据，一条元数据大概是150字节5.2）在工作时，元数据是保存在NameNode主机的内存中，内存如果有限的情况下

2023-02-06 22:08:51 275

qq_41151516的博客