似懂非dong-CSDN博客

原创 openGauss本地Centos7.6单机安装和简单应用

开源国产数据库openGauss 安装教程

2023-10-26 11:33:07 892

原创 HBase高可用集群安装部署

在大数据的采集、转换、存储、运算过程中，当数据量极大时关系型数据库的效率就显得略微的不足，因此，非关系型数据库的学习就从今天开始！HBase的版本为hbase-2.4.11-bin.tar.gz

2022-10-15 14:14:17 1303

原创 Zookeeper集群安装部署

同学，你好！本文主要为大家记录一下关于Zookeeper在集群中的安装部署，希望大家在安装的过程中注意几个点：(1)myid，(2)zookeeper的数据存放目录，(3)zk的集群配置，本文中的zookeeper版本为zookeeper-3.5.7。

2022-10-14 15:34:56 1265

原创实时数据同步工具＜Maxwell 操作案例＞

关于Maxwell同步MySQL数据的几个操作案例，监控MySQL数据输出到控制台，输出到kafka，指定监控某个表中数据的变化并输出到kafka等

2022-10-02 17:52:30 1955

原创实时数据同步工具＜Maxwell入门简介及原理解析、安装部署＞

对于离线数仓项目中将MySQL中的数据同步到大数据平台使用的工具是sqoop，而我们在大数据处理中并不是只有离线计算，随着技术的发展，目前实时分析处理在大数据中占据了非常大的部分，那么在实时大数据项目中我们可以使用什么工具为我们将MySQL中的数据同步到大数据平台中呢！本文中的Maxwell就是为了解决这个问题的，接下来，让我们一起细细了解

2022-10-02 00:17:57 3472

原创数据仓库任务调度器-Azkaban | 案例测试2＜电话报警通知机制＞

Azkaban集成睿象云实现电话告警通知机制，实现思路：Azkaban配置邮件通知，当任务调度失败或者成功时发送邮件给睿象云平台，在睿象云平台集成配置了电话通知，于是当睿象云收到Azkaban的邮件通知时，便会自动拨打电话告知项目负责人。

2022-09-29 12:16:00 1060

原创数据仓库任务调度器-Azkaban | 案例测试1＜自动邮件报警通知机制＞

此文章主要向大家演示在大数据项目中使用Azkaban作为任务调度器的时候，当任务发生错误和失败,又或者任务执行成功时怎么部署实现Azkaban**自动发送**邮件通知项目负责人，在这篇文章中我将126邮箱交给Azkaban使用，作为自动报警机制的发件人，而使用qq邮箱作为项目执行者接收Azkaban的报警信息。

2022-09-29 01:00:00 917

原创数据仓库任务调度器-Azkaban 入门＜集群安装及测试＞

任务调度器Azkaban、azkaban在大数据中的应用，数据仓库中的任务调度器

2022-09-27 17:31:46 990

原创 sqoop入门简介 | 安装部署 | sqoop案例展示

ETL工具sqoop文章目录ETL工具sqoopsqoop简介sqoop安装sqoop常用命令sqoop案例sqoop简介Sqoop(发音：skup)是一款开源的工具，主要用于在Hadoop(Hive)与传统的数据库(mysql、postgresql…)间进行数据的传递，可以将一个关系型数据库（例如： MySQL ,Oracle ,Postgres等）中的数据导进到Hadoop的HDFS中，也可以将HDFS的数据导进到关系型数据库中。Sqoop项目开始于2009年，最早是作为Hadoop的一个第三

2022-04-17 11:42:39 7360

原创 sqoop工具将数据从Hive导出到mysql中文乱码问题

sqoop工具将数据从Hive导出到mysql中文乱码问题常用从hive导出数据到mysql的sqoop执行语句： bin/sqoop export \--connect jdbc:mysql://bigdata01:3306/etl \--username root \--password 123456 \--table twobatchavgscore \--num-mappers 1 \--export-dir /user/hive/warehouse/etl/000000_0 \-

2022-04-16 19:30:20 4575

原创 hive不支持tab缩进

在sublime和notepad++中编写sql语句，在复制到hive中执行，结果竟然报错？原来竟是这个小问题作为一个用tab键进行缩进的惯犯，而且咋敲代码的时候tab键简直是越勇越爽，结果，现在用hive的时候发现竟然不好使了，hive竟然不支持tab键缩进，可是按空格又有点降低效率。这可难不到我们万能的百度。将sublime中的tab设置为四个空格，我们就可以继续使用tab来缩进要在hive中执行的sql语句了方法如下：打开Sublime------------>Preferences-

2022-04-05 14:34:53 2001 1

原创关联分析---Apriori算法和FPGrowth算法挖掘规则计算频繁项间的置信度

Apriori算法和FPGrowth算法挖掘规则计算频繁项间的置信度数据准备Apriori算法：apriori算法流程实现代码FP-growth算法FP-growth算法优点FP-growth算法流程实现代码博主在进行了Apriori算法和FPgrowth算法的学习与完成置信度计算之后写下此篇文章，没有过多的理论介绍，理论学习可以点击这里进行查看，此篇文章主要写出实现功能的代码，有些中间结果并未输出。但最终的置信度是进行了输出的。数据准备此处演示所用的数据集为书中作业题目的数据集：dataset =

2022-04-01 11:47:58 2164 2

原创解决IDEA中打包时报：Could not transfer artifact org.pentaho:pentaho-aggdesigner-algorithm:pom:5.1.5-jhyde问题

解决IDEA中打包时报：Could not transfer artifact org.pentaho:pentaho-aggdesigner-algorithm:pom:5.1.5-jhyde问题)问题：今天写一个对JSON文件进行分析的UDF和UDTF程序，当我准备对程序进行打包上传到服务器的时候，却报了错这个错误：Could not transfer artifact org.pentaho:pentaho-aggdesigner-algorithm:pom:5.1.5-jhyde from/

2022-03-28 20:31:31 6818 3

原创 Hive入门教程＜2＞ | hive在centos7下的安装部署

hive在centos7下的安装部署以及对hive进行简单的操作演示。练习：将本地数据文件导入到hive数据表中

2022-03-26 17:09:15 3269 2

原创 Centos7最小化安装后ifconfig命令找不到的问题

在最小化安装centos7后使用ifconfig命令，发送找不到命令的最佳解决方法！

2022-03-24 23:04:33 1288

原创 Hive入门教程＜1＞ | hive入门介绍

hive入门介绍入门介绍包括了什么是hive，hive的执行流程。hive的优缺点分别是什么，hive的架构原理及组件的描述，hive与传统数据库的比较。文章目录hive入门介绍1、什么是Hive2、Hive的优缺点3、Hive的架构原理4、Hive与数据库进行比较查询语言数据存储位置数据更新索引执行执行延迟可扩展性数据规模1、什么是Hivehive：由Facebook开源用于解决海量结构化日志的数据统计。hive是基于Hadoop的一个数据仓库工具，用来进行数据提取、转化、加载，这是一

2022-03-20 10:38:00 3394

原创 linux之shell快速入门系列＜8＞ | shell工具cut、sed、awk、sort

shell工具cut、sed、awk、sort文章目录shell工具cut、sed、awk、sort1、cut2、sed3、awk4、sort1、cut描述:cut的工作就是“剪”，具体的说就是在文件中负责剪切数据用的。cut 命令从文件的每一行剪切字节、字符和字段并将这些字节、字符和字段输出。基本用法cut [选项参数] filename说明：默认分隔符是制表符选项参数说明项参数功能-f列号，提取第几列-d分隔符，按照指定分隔符分割列

2022-03-19 21:19:55 3458

原创 linux之shell快速入门系列＜7＞ | shell函数的使用

shell函数的使用函数能为我们编写脚本减轻非常大的麻烦，减少我们代码的重复，强大我们的功能。文章目录shell函数的使用1、系统函数2、自定义函数1、系统函数basename基本语法basename [string / pathname] [suffix]功能：basename命令会删掉所有的前缀包括最后一个（‘/’）字符，然后将字符串显示出来，常用于返回问价名。选项：suffix为后缀，如果suffix被指定了，basename会将pathname或string中的su

2022-03-19 18:24:09 2136

原创 linux之shell快速入门系列＜6＞ | shell中read读取控制台输入

shell中read读取控制台输入我们在学习其他编程语言的时候，掌握控制台输入函数是非常必要的，比如C语言的scanf(),java的Scanner类下的next(),nextInt()等，在Linux的shell脚本编程中当然也少不了控制台输入了。在Shell中read就很好的为我们解决了这个麻烦。基本语法read(选项)(参数)选项：-p：指定读取值时的提示符；-t：指定读取值时等待的时间参数：变量：指定读取值的变量名案例操作（1）操作1，操作测试：-p[root@bi

2022-03-19 17:52:44 1575

原创 linux之shell快速入门系列＜5＞ | shell流程控制if、case、for、while轻松弄懂

Shell流程控制流程控制无论在什么编程语言中都是非常重要的一部分，掌握编程语言的流程控制语句可以为我们编写代码减轻极大的负担!接下来，我们一起看看Shell脚本中的流程控制语法！shell 实现1加到100shell实现九九乘法表shell实现if for while case登流程控制语句

2022-03-16 15:05:16 946

原创 Linux之Shell快速入门系列＜4＞ | Shell简单运算符

Shell简单运算符Shell与其它编程语言一样，支持多种运算符：算术运算符关系运算符布尔运算符字符串运算符文件测试运算符文章目录Shell简单运算符算术运算符关系运算符布尔运算符逻辑运算符字符串运算符算术运算符原生bash不支持简单的数学运算，但是可以通过其他命令来实现，例如 awk 和 expr，expr 最常用。expr 是一款表达式计算工具，使用它能完成表达式的求值操作。例如，两个数相加(注意使用的是反引号 ` 而不是单引号 ')：例：[root@bigdata01 c

2022-03-15 09:58:53 341

原创 Linux之Shell快速入门系列＜3＞ | Shell脚本中的变量

Shell脚本中的变量这篇文章主要介绍了在Shell中变量的使用,本文总结了变量的类型、语法、常见使用形式等内容,并分别给出代码示例,需要的朋友可以参考下Shell中的变量主要分为一下几种类型：系统变量自定义变量特殊变量

2022-03-14 21:45:15 480

原创 Linux之Shell快速入门系列＜2＞ | Shell脚本入门

开始记录shell入门脚本的学习，本博主的记录保持着容易弄懂的原则，便于其他刚入门的同学可以观看，不足之处还望指出！

2022-03-14 19:44:27 858

原创 linux之shell快速入门系列＜1＞|shell简介与shell解析器

linux之shell快速入门系列<1>|shell简介与shell解析器大数据程序员为什么要学习Shell呢？1）需要看懂运维人员编写的Shell程序。2）偶尔会编写一些简单Shell程序来管理集群、提高开发效率。文章目录linux之shell快速入门系列<1>|shell简介与shell解析器@[TOC](文章目录)1、shell概述2、shell解析器1、shell概述概述：Shell是一个命令行解析器，它接收应用程序或用户命令，然后调用操作系统内核。S

2022-03-14 14:53:26 1224

原创在VMware中克隆centos7后ifconfig没有网卡

centos7开机没有网卡解决方案

2022-03-10 14:35:05 798

原创 zookeeper集群安装有进程却无flower和leader状态

zookeeper查看状态报错Error contacting service. It is probably not runningmyid的问题防火墙问题myid的问题在将zookeeper分发后可能没有对自己创建的myid文件进行修改，myid需要修改为与conf目录下的zoo.cfg文件中server. 后面的数字相对应防火墙问题如果你确定没有其他任何配置的情况下，一定要试着死马当活马医的想法，将集群中的所有节点的防火墙都关闭一遍，我这里就是因为这个问题，白白忙活了一个多小时。*关闭防

2022-03-09 14:01:31 2931

原创 centos7中集群NTP服务实现时间同步

实现时间同步，便于减少集群执行出错

2022-03-09 13:13:46 874

原创 Spark大作业之FLume+Kafka+SparkStreaming实时处理+logj实时生成日志

本学期学习了大数据技术之spark，期末大作业就是使用Flume+kafka+SparkStreaming实现实时处理，在这之中有很多奇奇怪怪的问题出现，最终还是艰难的将此实验完成。如果你也刚好在做这个实验，希望能对你有用。有帮助的好希望一键三连哦，持续学习，持续更新Spark大作业之FLume+Kafka+SparkStreaming实时处理+log4j实时生成日志前言实现方法处理流程分析实现步骤1.创建一个Maven项目并创建两个maven模块2、导入依赖3、配置log4j.properties3.

2021-12-19 17:57:57 2839

空空如也

空空如也