菜鸟老胡~-CSDN博客

原创【大数据笔记】- Spark-SQL读写MySQL

Spark-SQL很强大，可以读写各种JDBC的库，先来一弹MySQL的，超简单：1.MySQL库建测试表和数据：CREATE TABLE t_realtime.test_spark2mysql ( id bigint(11) NOT NULL AUTO_INCREMENT, name varchar(30) DEFAULT NULL, age int DEFAULT NULL, PRIMARY KEY (id)) ENGINE=InnoDB;INSERT INTO t_r

2022-03-24 15:35:48 3486

原创【大数据笔记】- Hive UDF开发超简单教程

1.Hive UDF就是自定义函数，有两个不同的接口可以实现。自定义函数类别分为以下三种：（1）UDF 一进一出（2）UDAF 聚集函数，多进一出类似于：count/max/min（3）UDTF 一进多出本文主要介绍UDF，比较简单，直接上代码。2.新建项目新建一个idea的maven的java项目，自行百度就可以了，可以参考下面的idea-新建Maven Java工程 - MmeChan - 博客园3.pom.xml文件配置： <dependen.

2022-03-23 17:51:33 4560

原创【大数据笔记】- Spark Shell

一.基础环境：本文默认了你已经有了hadoop+Spark环境，且有一台linux客户机，配置好了各种环境变量，可执行Spark命令的。以上环境有没完成的，自行去百度完成。二.Spark Shell 交互1.准备一个分析文件word_test.txt（内容随意，我放的是英文诗），上传到hdfs，/tmp/hubg/目录下hadoop fs -put word_test.txt /tmp/hubg/word_test.txt2....

2021-12-21 11:21:11 503

原创 XXL-JOB企业微信机器人报警功能实现

一.先看一下实现效果1.1页面样式：1.2信息样式：

2021-11-24 19:14:50 2361 1

原创【大数据笔记】- Hadoop MapReduce API

一.基础环境：本文默认了你已经有一点的java基础，本机环境已安装java、maven、ide，配置好了相关的环境变量，且已经有可用的hadoop环境，已经用idea新建一个java maven项目。还要有一台linux客户机，可执行hadoop命令的。以上环境有没完成的，自行去百度完成。二.pom.xml引入包： <dependency> <groupId>org.apache.hadoop</groupId> ...

2021-11-23 09:52:32 1424

原创【大数据笔记】- Hadoop Java kerberos认证

一.将kerberos相关认证文件放到项目目录下：dw_host.keytab，krb5.conf二.pom.xml引入包： <dependency> <groupId>org.apache.hadoop</groupId> <artifactId>hadoop-common</artifactId> <version>2.7.3&..

2021-11-10 16:16:25 7063 1

原创【大数据笔记】- Hadoop HDFS API

一.基础环境：本文默认了你已经有一点的java基础，本机环境已安装java、maven、ide，配置好了相关的环境变量，且已经有可用的hadoop环境，已经用idea新建一个spring boot、maven项目。以上环境有没完成的，自行去百度完成。二.pom.xml引入包： <dependency> <groupId>org.apache.hadoop</groupId> <art

2021-11-10 15:55:39 2393 1

原创分布式任务调度平台XXL-JOB安装部署

啥是XXL_JOB？XXL-JOB是一个分布式任务调度平台，其核心设计目标是开发迅速、学习简单、轻量级、易扩展。现已开放源代码并接入多家公司（目前官网主动上报的446家）线上产品线，开箱即用。不多介绍了，直接上部署教程：一.下载文档地址中文文档 English Documentation源码仓库地址源码仓库地址 Release Download GitHub - xuxueli/xxl-job: A distributed task scheduling framewo

2021-10-28 13:00:15 3010 1

原创分布式任务调度平台XXL-JOB使用教程

分布式任务调度平台XXL-JOB使用教程

2021-10-27 17:02:58 2239

原创调度平台XXL-JOB集成CAS单点登录

本文用最简单的方法来集成，不引入第三方权限框架，用最小改动，换取以后升级的便利。需要集成的是xxl-job-admin项目，如果有小伙伴还没有部署XXL-JOB，可以官网教程来搞一个分布式任务调度平台XXL-JOBXXL-JOB的权限设置比较简单，用的是拦截器，所以我们就在这个基础上来集成CAS：1.pom.xml引用cas快速配置包：<dependency> <groupId>net.unicon.ca.

2021-10-19 17:54:23 2150 2

原创【hudi学习笔记】hudi基础教程-hudi表设计

一. hudi表设计在较高的层次上，用于写Hudi表的组件使用了一种受支持的方式嵌入到Apache Spark作业中，它会在支持DFS的存储上生成代表Hudi表的一组文件。然后，在具有一定保证的情况下，诸如Apache Spark、Presto、Apache Hive之类的查询引擎可以查询该表。Hudi表的三个主要组件：1）有序的时间轴元数据。类似于数据库事务日志。2）分层布局的数据文件：实际写入表中的数据。3）索引（多种实现方式）：映射包含指定记录的数据集。Hudi提供了以下.

2021-10-11 11:41:48 3219

原创【hudi学习笔记】hudi基础教程-Timeline时间轴

一. Hudi Timeline（时间轴）Hudi维护着一条对Hudi数据集所有操作的不同Instant组成的Timeline（时间轴），通过时间轴，用户可以轻易的进行增量查询或基于某个历史时间点的查询，这也是Hudi对外提供基于时间点查询的核心能力之一。每条Timeline必须包含零或多个Instant。所有Instant构成了Timeline，Instant在Hudi中被定义为HoodieInstant，其主要包含三个组件（字段）:State state = State.CO...

2021-10-11 10:53:11 1346

原创 kettle基础教程-kettle9教程

一.安装部署1.JDK1.8安装及环境变量的配置https://blog.csdn.net/weixin_39549656/article/details/795406442.kettle9安装与启动kettle下载目录：https://sourceforge.net/projects/pentaho/files/kettle9.2下载地址：https://sourceforge.net/projects/pentaho/files/Pentaho-9.2/client-tool

2021-08-17 11:47:53 10256 5

原创【ES学习笔记】Elasticsearch7基础入门

一，Elasticsearch7.13安装官网https://www.elastic.co/cn/downloads/elasticsearch选windows版很简单，下载，解压，运行bin目录下elasticsearch.bat启动之后用浏览器访问http://localhost:9200/，返回如下内容说明安装成功了。{ "name" : "my_node", "cluster_name" : "elasticsearch", "cluster_uuid" ...

2021-06-25 14:05:34 1052

原创【Redis学习笔记】Redis Shell命令行、Redis API基础入门

一，Redis安装不多说了，上个菜鸟教程，自己去装吧。https://www.runoob.com/redis/redis-install.html

2021-06-01 15:48:49 281

foxofwind的博客