- 博客(46)
- 收藏
- 关注
原创 HBase高可用集群安装部署
在大数据的采集、转换、存储、运算过程中,当数据量极大时关系型数据库的效率就显得略微的不足,因此,非关系型数据库的学习就从今天开始!HBase的版本为hbase-2.4.11-bin.tar.gz
2022-10-15 14:14:17 1214 1
原创 Zookeeper集群安装部署
同学,你好!本文主要为大家记录一下关于Zookeeper在集群中的安装部署,希望大家在安装的过程中注意几个点:(1)myid,(2)zookeeper的数据存放目录,(3)zk的集群配置,本文中的zookeeper版本为zookeeper-3.5.7。
2022-10-14 15:34:56 1222
原创 实时数据同步工具<Maxwell 操作案例>
关于Maxwell同步MySQL数据的几个操作案例,监控MySQL数据输出到控制台,输出到kafka,指定监控某个表中数据的变化并输出到kafka等
2022-10-02 17:52:30 1871
原创 实时数据同步工具<Maxwell入门简介及原理解析、安装部署>
对于离线数仓项目中将MySQL中的数据同步到大数据平台使用的工具是sqoop,而我们在大数据处理中并不是只有离线计算,随着技术的发展,目前实时分析处理在大数据中占据了非常大的部分,那么在实时大数据项目中我们可以使用什么工具为我们将MySQL中的数据同步到大数据平台中呢!本文中的Maxwell就是为了解决这个问题的,接下来,让我们一起细细了解
2022-10-02 00:17:57 3238
原创 数据仓库任务调度器-Azkaban | 案例测试2<电话报警通知机制>
Azkaban集成睿象云实现电话告警通知机制,实现思路:Azkaban配置邮件通知,当任务调度失败或者成功时发送邮件给睿象云平台,在睿象云平台集成配置了电话通知,于是当睿象云收到Azkaban的邮件通知时,便会自动拨打电话告知项目负责人。
2022-09-29 12:16:00 958
原创 数据仓库任务调度器-Azkaban | 案例测试1<自动邮件报警通知机制>
此文章主要向大家演示在大数据项目中使用Azkaban作为任务调度器的时候,当任务发生错误和失败,又或者任务执行成功时怎么部署实现Azkaban**自动发送**邮件通知项目负责人,在这篇文章中我将126邮箱交给Azkaban使用,作为自动报警机制的发件人,而使用qq邮箱作为项目执行者接收Azkaban的报警信息。
2022-09-29 01:00:00 826
原创 sqoop入门简介 | 安装部署 | sqoop案例展示
ETL工具sqoop文章目录ETL工具sqoopsqoop简介sqoop安装sqoop常用命令sqoop案例sqoop简介Sqoop(发音:skup)是一款开源的工具,主要用于在Hadoop(Hive)与传统的数据库(mysql、postgresql…)间进行数据的传递,可以将一个关系型数据库(例如 : MySQL ,Oracle ,Postgres等)中的数据导进到Hadoop的HDFS中,也可以将HDFS的数据导进到关系型数据库中。Sqoop项目开始于2009年,最早是作为Hadoop的一个第三
2022-04-17 11:42:39 7135
原创 sqoop工具将数据从Hive导出到mysql中文乱码问题
sqoop工具将数据从Hive导出到mysql中文乱码问题常用从hive导出数据到mysql的sqoop执行语句: bin/sqoop export \--connect jdbc:mysql://bigdata01:3306/etl \--username root \--password 123456 \--table twobatchavgscore \--num-mappers 1 \--export-dir /user/hive/warehouse/etl/000000_0 \-
2022-04-16 19:30:20 4497
原创 hive不支持tab缩进
在sublime和notepad++中编写sql语句,在复制到hive中执行,结果竟然报错?原来竟是这个小问题作为一个用tab键进行缩进的惯犯,而且咋敲代码的时候tab键简直是越勇越爽,结果,现在用hive的时候发现竟然不好使了,hive竟然不支持tab键缩进,可是按空格又有点降低效率。这可难不到我们万能的百度。将sublime中的tab设置为四个空格,我们就可以继续使用tab来缩进要在hive中执行的sql语句了方法如下:打开Sublime------------>Preferences-
2022-04-05 14:34:53 1948 1
原创 关联分析---Apriori算法和FPGrowth算法挖掘规则计算频繁项间的置信度
Apriori算法和FPGrowth算法挖掘规则计算频繁项间的置信度数据准备Apriori算法:apriori算法流程实现代码FP-growth算法FP-growth算法优点FP-growth算法流程实现代码博主在进行了Apriori算法和FPgrowth算法的学习与完成置信度计算之后写下此篇文章,没有过多的理论介绍,理论学习可以点击这里进行查看,此篇文章主要写出实现功能的代码,有些中间结果并未输出。但最终的置信度是进行了输出的。数据准备此处演示所用的数据集为书中作业题目的数据集:dataset =
2022-04-01 11:47:58 1967 2
原创 解决IDEA中打包时报:Could not transfer artifact org.pentaho:pentaho-aggdesigner-algorithm:pom:5.1.5-jhyde问题
解决IDEA中打包时报:Could not transfer artifact org.pentaho:pentaho-aggdesigner-algorithm:pom:5.1.5-jhyde问题)问题:今天写一个对JSON文件进行分析的UDF和UDTF程序,当我准备对程序进行打包上传到服务器的时候,却报了错这个错误:Could not transfer artifact org.pentaho:pentaho-aggdesigner-algorithm:pom:5.1.5-jhyde from/
2022-03-28 20:31:31 6604 3
原创 Hive入门教程<2> | hive在centos7下的安装部署
hive在centos7下的安装部署以及对hive进行简单的操作演示。练习:将本地数据文件导入到hive数据表中
2022-03-26 17:09:15 3163 2
原创 Centos7最小化安装后ifconfig命令找不到的问题
在最小化安装centos7后使用ifconfig命令,发送找不到命令的最佳解决方法!
2022-03-24 23:04:33 1237
原创 Hive入门教程<1> | hive入门介绍
hive入门介绍入门介绍包括了什么是hive,hive的执行流程。hive的优缺点分别是什么,hive的架构原理及组件的描述,hive与传统数据库的比较。文章目录hive入门介绍1、什么是Hive2、Hive的优缺点3、Hive的架构原理4、Hive与数据库进行比较查询语言数据存储位置数据更新索引执行执行延迟可扩展性数据规模1、什么是Hivehive:由Facebook开源用于解决海量结构化日志的数据统计。hive是基于Hadoop的一个数据仓库工具,用来进行数据提取、转化、加载,这是一
2022-03-20 10:38:00 3327
原创 linux之shell快速入门系列<8> | shell工具cut、sed、awk、sort
shell工具cut、sed、awk、sort文章目录shell工具cut、sed、awk、sort1、cut2、sed3、awk4、sort1、cut描述:cut的工作就是“剪”,具体的说就是在文件中负责剪切数据用的。cut 命令从文件的每一行剪切字节、字符和字段并将这些字节、字符和字段输出。基本用法cut [选项参数] filename说明:默认分隔符是制表符选项参数说明项参数功能-f列号,提取第几列-d分隔符,按照指定分隔符分割列
2022-03-19 21:19:55 3410
原创 linux之shell快速入门系列<7> | shell函数的使用
shell函数的使用函数能为我们编写脚本减轻非常大的麻烦,减少我们代码的重复,强大我们的功能。文章目录shell函数的使用1、系统函数2、自定义函数1、系统函数basename基本语法basename [string / pathname] [suffix]功能:basename命令会删掉所有的前缀包括最后一个(‘/’)字符,然后将字符串显示出来,常用于返回问价名。选项:suffix为后缀,如果suffix被指定了,basename会将pathname或string中的su
2022-03-19 18:24:09 2103
原创 linux之shell快速入门系列<6> | shell中read读取控制台输入
shell中read读取控制台输入我们在学习其他编程语言的时候,掌握控制台输入函数是非常必要的,比如C语言的scanf(),java的Scanner类下的next(),nextInt()等,在Linux的shell脚本编程中当然也少不了控制台输入了。在Shell中read就很好的为我们解决了这个麻烦。基本语法read(选项)(参数)选项:-p:指定读取值时的提示符;-t:指定读取值时等待的时间参数:变量:指定读取值的变量名案例操作(1)操作1,操作测试:-p[root@bi
2022-03-19 17:52:44 1544
原创 linux之shell快速入门系列<5> | shell流程控制if、case、for、while轻松弄懂
Shell流程控制流程控制无论在什么编程语言中都是非常重要的一部分,掌握编程语言的流程控制语句可以为我们编写代码减轻极大的负担!接下来,我们一起看看Shell脚本中的流程控制语法!shell 实现1加到100shell实现九九乘法表shell实现if for while case登流程控制语句
2022-03-16 15:05:16 903
原创 Linux之Shell快速入门系列<4> | Shell简单运算符
Shell简单运算符Shell与其它编程语言一样,支持多种运算符:算术运算符关系运算符布尔运算符字符串运算符文件测试运算符文章目录Shell简单运算符算术运算符关系运算符布尔运算符逻辑运算符字符串运算符算术运算符原生bash不支持简单的数学运算,但是可以通过其他命令来实现,例如 awk 和 expr,expr 最常用。expr 是一款表达式计算工具,使用它能完成表达式的求值操作。例如,两个数相加(注意使用的是反引号 ` 而不是单引号 '):例:[root@bigdata01 c
2022-03-15 09:58:53 313
原创 Linux之Shell快速入门系列<3> | Shell脚本中的变量
Shell脚本中的变量这篇文章主要介绍了在Shell中变量的使用,本文总结了变量的类型、语法、常见使用形式等内容,并分别给出代码示例,需要的朋友可以参考下Shell中的变量主要分为一下几种类型:系统变量自定义变量特殊变量
2022-03-14 21:45:15 458
原创 Linux之Shell快速入门系列<2> | Shell脚本入门
开始记录shell入门脚本的学习,本博主的记录保持着容易弄懂的原则,便于其他刚入门的同学可以观看,不足之处还望指出!
2022-03-14 19:44:27 829
原创 linux之shell快速入门系列<1>|shell简介与shell解析器
linux之shell快速入门系列<1>|shell简介与shell解析器大数据程序员为什么要学习Shell呢?1)需要看懂运维人员编写的Shell程序。2)偶尔会编写一些简单Shell程序来管理集群、提高开发效率。文章目录linux之shell快速入门系列<1>|shell简介与shell解析器@[TOC](文章目录)1、shell概述2、shell解析器1、shell概述概述:Shell是一个命令行解析器,它接收应用程序或用户命令,然后调用操作系统内核。S
2022-03-14 14:53:26 1189
原创 zookeeper集群安装有进程却无flower和leader状态
zookeeper查看状态报错Error contacting service. It is probably not runningmyid的问题防火墙问题myid的问题在将zookeeper分发后可能没有对自己创建的myid文件进行修改,myid需要修改为与conf目录下的zoo.cfg文件中server. 后面的数字相对应防火墙问题如果你确定没有其他任何配置的情况下,一定要试着死马当活马医的想法,将集群中的所有节点的防火墙都关闭一遍,我这里就是因为这个问题,白白忙活了一个多小时。*关闭防
2022-03-09 14:01:31 2851
原创 Spark大作业之FLume+Kafka+SparkStreaming实时处理+logj实时生成日志
本学期学习了大数据技术之spark,期末大作业就是使用Flume+kafka+SparkStreaming实现实时处理,在这之中有很多奇奇怪怪的问题出现,最终还是艰难的将此实验完成。如果你也刚好在做这个实验,希望能对你有用。有帮助的好希望一键三连哦,持续学习,持续更新Spark大作业之FLume+Kafka+SparkStreaming实时处理+log4j实时生成日志前言实现方法处理流程分析实现步骤1.创建一个Maven项目并创建两个maven模块2、导入依赖3、配置log4j.properties3.
2021-12-19 17:57:57 2629
原创 集群中文件分发脚本、同步操作脚本、zookeeper群起群停脚本、kafka群起脚本
昨晚承诺今晚上给大家写一篇博文教一下向我一样刚入门大数据的同学如何能够使用脚本方便我们的学习,方便我们对集群的使用。虽然今天刚外出学习回来比较累,但是依然还是要实现自己说的话,希望我们大家都可以在学习的进程不断坚持。获取到更多的专业知识,未来有更好的就业机会和选择!我这里的方法主要是针对集群的使用:hadoop集群 、spark集群、kafka集群、zookeeper集群,,脚本编写在/root/bin/目录下 编写完后保存,然后对文件进行赋权限 chmod u+x 文件名目录准备工作.
2021-12-04 23:59:40 1834
原创 sparkstreaming+flume+kafka实现实时日志处理
自己动手实现SparkStreaming+Kafka+flume实时处理日志信息并将结果写入到MySQL数据库
2021-12-02 19:31:51 2990 2
原创 Flume安装和基本操作
Flume安装操作一、Flume简介二、安装配置三、Flume入门基本操作一、Flume简介什么是Flume?Flume是Cloudera提供的一个高可用的,高可靠的,分布式的海量日志采集、聚合和传输的系统。Flume基于流式架构,灵活简单。Flume的基础架构组件分析:AgentAgent是一个JVM进程,它以事件的形式将数据从源头送至目的。Agent主要有3个部分组成,Source、Channel、Sink。SourceSource是负责接收数据到Flume Agent
2021-12-01 17:35:01 466
原创 Hive入门教程<5>| Hive的数据类型
Hive数据类型一、基本数据类型二、集合数据类型三、类型转化一、基本数据类型 Hive数据类型 Java数据类型 长度 例子 TINYINT byte 1byte有符号整数 20 SMALINT short 2byte有符号整数 20 INT int 4byte有符号整数 20
2021-11-28 13:33:16 656
原创 kafka集群安装
kafka集群安装一、安装包获取二、安装kafka本人是一名在校大三学生,所选专业大数据技术,为了毕业能有一份可观的工作,目前正在致力于努力学习中,在学习中的一些笔记和经验,希望可以通过写CSDN博文记录并和同样正在努力中的你分享一、安装包获取 在Windows中在官网下载,然后上传到虚拟机链接:https://mirrors.tuna.tsinghua.edu.cn/apache/kafka/ 在虚拟机中通过wget命令下载首先安装wget:yum -y install wget下
2021-11-26 10:16:56 2399
原创 SparkStreaming读取kafka生产的数据,进行累计词频统计后将最新结果存入MySQL数据库
SparkStreaming读取kafka生产的数据,进行累计词频统计后将最新结果存入MySQL数据库一、环境准备二、环境启动三、编写程序四、进行测试读取kafka数据,进行累计词频统计,将结果输出到mysql的数据表中!!!!关于使用sparkstreaming读取kafka生产者生产的数据,并且将每一次输入的数据进行词频累计统计,然后将最终结果存储到MySQL数据库中。学习记录~一、环境准备 hadoop集群 zookeeper kafka 在idea中添加依赖 <!--spa
2021-11-24 14:43:48 2131
原创 SparkStreaming动态读取kafka生产者生产的数据并将它存入MySQL数据库
SparkStreaming动态读取kafka生产者生产的数据并将它存入MySQL数据库一、环境准备二、编写程序三、进行测试关于使用sparkstreaming读取kafka生产者生产的数据,并且将每一次输入的数据进行词频统计,然后将结果存储到MySQL数据库中。学习记录~一、环境准备 zookeeper kafka二、编写程序在idea中编写SparkStreaming代码:import org.apache.kafka.common.serialization.StringDeseri
2021-11-23 15:20:44 2036
原创 Hadoop全分布环境搭建
Hadoop全分布环境搭建一、准备工作二、开始安装配置环境Vmware+centos7+jdk8+hadoop-2.7.3说明hadoop全分布模式需要三台主机:ethan001,ethan002,ethan003主机分布规划:主节点:ethan001从节点:ethan002 ethan003一、准备工作1、hadoop安装包,hadoop-2.7.3.tar提码:11112、三台安装好jdk的虚拟机,jdk安装教程3、所有主机都配置好主机名映射关系vi /etc/host
2021-11-22 14:35:58 892
原创 hadoop集群中的三台主机两两之间配置免密登录
三台主机之间配置免密登录一、环境二、准备工作三、开始配置免密登录一、环境VMware+centos7二、准备工作三台虚拟机:ethan001 ethan002 ethan003在三台虚拟机都配置好主机名映射关系vi /etc/hosts输入自己三台虚拟机的ip 主机名():192.168.174.140 ethan001192.168.174.141 ethan003192.168.174.142 ethan002三、开始配置免密登录...
2021-11-22 09:39:56 2461
原创 虚拟机centos7中安装jdk
文章目录一、准备工作二、jdk安装及环境配置二、hadoop安装2.伪分布式配置验证hadoop环境是否搭建成功一、准备工作准备工作请自行参考如下资料进行操作,确保VMware虚拟机及CentOS7.6操作系统正常安装安装VMware虚拟机和CentOS7操作系统参考:https://blog.csdn.net/IT_technologier/article/details/114696093?spm=1001.2014.3001.5501在CentOS操作系统中的根目录下创建tools和t
2021-11-19 15:12:35 1885
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人