自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(47)
  • 资源 (1)
  • 收藏
  • 关注

原创 记因hive配置文件参数运用不当导致 sqoop MySQL导入数据到hive 失败的案例

FAILED: NullPointerException nullERROR tool.ImportTool: Encountered IOException running import job: java.io.IOException: Hive exited with status 64hive-site.xml配置hive.security.authorization.manage和hive.security.authenticator.manager参数

2024-06-25 14:47:55 1280

原创 mysql编码配置UTF-8

查看编码mysql -uroot -p1234 -e "show variables like '%character%'";在Linux系统中,MySQL的配置文件my.cnf通常位于/etc/mysql/目录下。要设置MySQL使用UTF-8编码,需要确保客户端、数据库和连接这三个部分都使用UTF-8。以下是一个简化的配置示例

2024-06-21 08:30:00 495

原创 datax使用实例及优化

或{"byteSize":0,"index":6,"rawData":"","type":5}],"type":"reader","message":"No enum constant com.alibaba.datax.plugin.unstructuredstorage.reader.UnstructuredStorageReaderUtil.Type.INT"}直接配置 job.setting.speed.channel=5,所以 job 内 Channel 并发=5 个。如果过程出现提示脏数据。

2024-06-18 21:07:53 782

原创 sqoop使用教程

三、sqoop作业 1.修改配置文件 2.开启sqoop源数据服务 3.创建job 4.查看job 5.显示job详情 6.执行job 7.删除jobERROR org.apache.sqoop.tool.JobTool - I/O error performingjob operation: java.io.IOException: Cannot restore missing job

2024-06-17 08:30:00 745

原创 linux图形化界面上创建idea图标

输入以下内容,保存后把文件拖到图形化界面的桌面,双击文件即可。

2024-06-16 16:40:01 85

原创 redis源码编译安装

源码下载地址http://download.redis.io/releases/

2024-06-16 00:02:46 985

原创 datax图形化界面datax-web安装及使用

环境准备:需要先安装git和mavengit安装可参考maven只需解压安装包,配置环境变量即可使用。

2024-06-15 23:46:46 1447

原创 datax的安装及使用入门

需求:读取 MySQL 中的数据存放到 HDFS。登录MySQL创建student表,并插入数据。#修改datax/bin目录。下载到自己指定的安装目录。

2024-06-15 23:37:43 818

原创 git的安装

下载解压git源码包,进入到 解压出来的git目录,依次执行编译安装等命令。、配置git的环境变量。有返回则安装配置成功。

2024-06-15 23:30:52 322

原创 sqoop的安装配置

1)报错Exception in thread "main" java.lang.NoClassDefFoundError: org/apache/commons/lang/StringUtils(2)报错:ERROR sqoop.Sqoop: Got exception running Sqoop: java.lang.RuntimeException: Could not load db driver class: com.mysql.jdbc.Driver解决办法:

2024-06-15 16:43:58 955

原创 kafka集成spark

新建SparkKafkaProducer (注意选择的是object而不是class)控制台可以消费到数据,可见spark作为消费者集成Kafka成功。能接收到信息,可见spark作为生产者集成Kafka成功。运行,开启Kafka 消费者消费数据。开启Kafka 生产者生产数据。

2024-06-10 17:38:59 704

原创 在idea中创建Scala项目教程

Scr-main(右键)-新建-目录(Scala回车键)-scala(右键)-将项目标记为-源代码根目录。当前项目(右键)-添加框架支持-scala-创建-浏览(选择Scala安装目录下的lib即可)文件-设置-插件-marketplace 搜索Scala 下载。未添加Scala支持时是不支持新建Scala类的。文件-新建-项目-新项目-构建系统maven。添加Scala框架支持后才可新建Scala类。选择后可见下图结果,点确定即可。

2024-06-10 14:36:36 633

原创 Kafka集成flume

kafka作为flume的source,扮演生产者角色。kafka作为flume的sink,扮演消费者角色。可见Kafka集成flume生产者成功。可见Kafka集成flume消费者成功。往被监控文件输入数据。查看Kafka消费者。查看flume监控台。

2024-06-10 12:59:56 715 1

原创 kafka集成SpringBoot api编写教程

用的idea是20222.1.3版本,没有Spring Initializr 插件,不能直接创建springboot项目。SpringBootKafkaApplication这个程序在创建项目时自动生成。可以在以下网址创建项目,下载后解压,然后用idea打开项目即可。控制台有输出,spring boot消费者集成Kafka成功。(也可以选择修改对应的jdk版本,创建项目时勾选的是22)新建controller包。可见spring boot生成者集成Kafka成功。输入后网页返回发送成功。

2024-06-10 00:15:48 1243 1

原创 kafka集成flink api编写教程

把$FLINK_HOME/conf/log4j.properties 内容复制粘贴过来。运行,用3中的生产者生产数据,消费结果。kafka消费者消费结果。

2024-06-09 17:01:31 509

原创 Kafka监控系统efak的安装

下载地址连接不稳定,可以多次尝试直到成功连接下载。4.mysql中创建kafkaEagle库。# 配置KAFKA_EAGLE环境变量。查看到解压后包含一个安装包,再解压。关闭Kafka集群后重新启动。1.解压安装包并重命名。密码123456 登录。移至上级目录并重命名。5. 开启JMX监控。

2024-06-08 18:36:56 571

原创 Kafka消费者api编写教程

输入new KafkaConsumer(properties).var 回车选择消费者名称。输入new ArrayList().var 回车修改变量名为topics。>().var 回车选择变量名为topicsPartitions。输入new Properties().var 回车。输出台上可以看到输出的都是订阅的主题/分区的信息。输入new ArrayList

2024-06-04 19:57:29 631

原创 关于无法通过脚本启动Kafka集群的解决办法

启动Kafka集群时,需要在每台个节点上启动启动服务,比较麻烦,通过写了以下脚本来进行启停;发现能正常使用停止功能,不能正常启动Kafka;#先在~/.bashrc文下配置JAVA_HOME,已经安装jdk的,通过which Java 命令可以查看jdk的安装位置。再次尝试通过脚本启动。

2024-06-04 18:00:16 276 1

原创 Kafka broker的新增和剔除(服役与退役)

说明:集群现有broker:node1,node2,node3三个,broker.id分别为0,1,2已有两个topic:products、cities。

2024-06-01 02:24:11 839

原创 Kafka自定义分区器编写教程

在自定义生产者消息发送时,属性配置上加入自定义分区器。

2024-05-30 01:49:43 677

原创 Kafka生产者消息异步发送并返回发送信息api编写教程

键入topic名(order)和要发送的信息(“0000”+i),new Callback()回车会弹出需要重写的抽象类,补全返回条件、需要返回的信息即可实现抽象类;键入new Properties().var 回车,键入new KafkaProducer(properties).var 回车,选择变量名。键入new KafkaProducer(),光标置于括号内CTRL+P可以显示需要对象为properties;//指定对应的key和value的序列化类型。//关联自定义分区器。

2024-05-30 01:45:03 1208

转载 Kafka入门

如果要降低潜在的延迟,就可以把参数值设置的小一些。跟其他与字节相关的配置参数一样,该参数指的是压缩后的消息大小,也就是说,只要压缩后的消息小于 mesage.max.bytes,那么消息的实际大小可以大于这个值。,比如我们经常回去淘宝购物,你打开淘宝的那一刻,你的登陆信息,登陆次数都会作为消息传输到 Kafka 后台,当你浏览购物的时候,你的浏览信息,你的搜索指数,你的购物爱好都会作为一个个消息传递给 Kafka 后台,然后淘宝会根据你的爱好做智能推荐,致使你的钱包从来都禁不住诱惑,那么这些生产者产生的。

2024-05-29 18:59:06 23

原创 kafka的安装与简单使用

auto.create.topics.enable=false #自动创建topic参数,建议此值设置为false,严格控制topic管理,防止生产者错写topic。num.partitions=5 # 默认partition数量为1,如果topic在创建时没有指定partition数量,默认使用此值,建议改为5。log.dirs=/export/server/kafka_2.13-3.2.0/logs #需要自己创建logs目录。可,本人依次递增1,2,3。#配置kafka环境变量。

2024-05-29 18:39:24 831

原创 ganglia的安装使用

这里的mycluser是你这套集群你想取的名字,而后面的node1就是监控的节点。# namenode 所在的节点 多个用英文下的逗号隔开。" # 集群名,即gmetad的data_source里的名字。# datanode 所在的节点 多个用英文下的逗号隔开。# namenode 所在的节点 多个用英文下的逗号隔开。# datanode 所在的节点 多个用英文下的逗号隔开。# resourcemanager 所在的节点。# resourcemanager 所在的节点。在执行flume任务时添加以下参数。

2024-05-21 00:59:06 762

原创 使用netcat时报错Ncat Connection refused.

当你在使用前没建立node1 44444这个端口,换而言之,你就是没启用44444这个端口,那么当你想与44444这个端口来建立通讯时自然就会出现Ncat: Connection refused.因为你没启用,所以无法找到通讯端口,所以会被拒绝连接。但是对于不熟悉netcat的新手来说,其实最应该要检查的是你在使用nc node1 44444 这个命令前是否建立了node1 44444这个端口。要解决这个问题,我们在使用nc node1 44444 命令前,必须先在node1建立一个44444的通讯端口。

2024-05-20 15:24:46 321

原创 flume channel和interceptor简介及官方用例

a1.sourcesr1a1.sinksk1c1# 先调用i1再调用i2i1 i2#这里自编的拦截器名为HostInterceptorfalsehostnamec1请注意,拦截器生成器将传递给 type config 参数。拦截器本身就是 可配置,并且可以传递配置值,就像传递给任何其他可配置组件一样。在上面的示例中,事件首先传递给 HostInterceptor,然后由 HostInterceptor 返回事件 然后传递给 TimestampInterceptor。

2024-05-19 23:40:35 988 1

原创 Idea中flume的Interceptor的编写教程

/键入implements Interceptor{} 光标定位到Interceptor alt + enter键选择导入类导入flume的Interceptor即可 import org.apache.flume.interceptor.Interceptor;打开四个窗口,前三个分别运行flume1.conf、flume2.conf、flume3.conf 配置的进程。注意位置是将来打包文件存放的位置,即我们打包好的文件在这/export/data个目录下寻找。# 接收c1中的数据。

2024-05-19 19:42:25 1285

原创 flume使用实例

由此可见当我们操作hive的时候 hive.log 就更新,由于我们监控了hive.log文件所以当有新数据追加到hive.log的时候 就会监听到 并打印到控制台。参数-n 表示jvm进程名 -c表示本次启动读取的配置文件conf目录下的文件 -f 表示具体执行的文件。a1.channels.c1.capacity = 1000 #1000个event。【2】创建文件 flume-taildir-hdfs.conf。#记录最后监控文件的断点的文件,此文件位置可不改。#文件的滚动与 Event 数量无关。

2024-05-19 19:26:48 1080

原创 Flume Channels简介及官方用例

通道是在代理上暂存事件的存储库。Source 添加事件,Sink 将其删除。事件存储在具有可配置最大大小的内存中队列中。它非常适合需要更高吞吐量的流,但在agent发生故障时会丢失暂存数据Defaultc1memory100001000020800000。

2024-05-19 18:30:14 601

原创 flume sink 简介及官方用例

https://flume.apache.org/FlumeUserGuide.html#source-and-sink-batch-sizes-and-channel-transaction-capacities

2024-05-19 18:23:00 769

原创 flume source 简介及官方用例

一个类似 netcat 的源,它侦听给定的端口并将每行文本转换为一个事件。类似于 nc -k -l [主机] [端口]。换句话说,它打开一个指定的端口并侦听数据。期望提供的数据是换行符分隔的文本。每行文本都会变成一个 Flume 事件,并通过连接的通道发送Defaultchannelstypebindporta1.sourcesr1c1netcat0.0.0.06666c1。

2024-05-19 18:05:06 716

原创 flume简介

如果interceptors需要删除事件,则它不会在返回的列表中返回该事件。Sink作为Agent的输出口,负责不断轮询Channel中的事件并批量移除事件,根据配置文件的配置将事件写入到HDFS等存储系统,或者发到另一个Agent中。Source作为Agent的输入口,负责接收各种类型、各种格式的日志数据,包括 avro、thrift、exec、jms、spooling directory、netcat、taildir、sequence generator、syslog、http、legacy。

2024-05-19 17:50:45 243

原创 flume的安装配置

4.使用flume-ng version 可查到相关版本信息即安装成功。分发到其他节点并source /etc/profile。# console表示同时将日志输出到控制台。--conf:Flume通用配置目录。--conf-file:配置文件位置。新起一个终端并连接44444端口。3. 修改flume的配置文件。# 配置flume的环境变量。输入hello flume。在flume控制台看到输出。Flume使用demo。--name:代理名称。# 指定日志输出路径。5.flume的使用。

2024-05-19 17:32:56 825

原创 关于hdfs、yarn网页端可用IP地址访问不可用域名访问的解决方法

关于hdfs、yarn网页端可用IP地址访问不可用域名访问的解决方法

2023-02-16 01:41:39 859

原创 hive使用时的用户权限问题

Execution Error, return code 1 from;ljr is not allowed to add roles;Permission denied: Principal [name=ljr, type=USER] does not have following privileges for operation GRANT_PRIVILEGE;解决办法:1、在hive-site.xml中指定超级管理员2、通过beeline以ljr用户进入hive执行相关操作

2022-12-11 23:38:03 3178 1

原创 kettle与hive建立连接教程

要替换kettle文件的位置:D:\programfile\data-integration\plugins\pentaho-big-data-plugin\hadoop-configurations\hdp30。注意是要放在hdp30目录下的lib文件夹,而不是像把Oracle/MySQL驱动一样放在data-integration目录下的lib文件夹。版本说明:kettle:pdi-ce-8.3.0.0-371.zip。Hadoop集群:hadoop-3.3.2。如下建立db连接,恭喜测试成功!

2022-12-11 23:16:54 3221

原创 kettle与MySQL数据库建立连接教程

kettle与MySQL数据库建立连接连接报错:Error connecting to database: (using class com.mysql.cj.jdbc.Driver)Communications link failureThe last packet sent successfully to the server was 0 milliseconds ago. The driver has not received any packets from the server的解决方法

2022-12-07 22:28:28 9647

原创 spark安装以及hive on spark和spark on hive 的配置

安装spark版本为已经编译好的spark-3.2.1-bin-hadoop3.2-scala2.13.tgz,其同样兼容hadoop-3.3.2;Hive on Spark(为hive配置spark引擎):Hive既作为存储元数据又负责SQL的解析优化,语法是HQL语法,执行引擎变成了Spark,Spark负责采用RDD执行。Hive默认执行引擎是mapreduce,由于需频繁读取磁盘,效率比较低,Spark在内存中读取数据,所以总体来讲比MapReduce快很多(当然首次执行速度还是比较慢的)..

2022-06-07 17:30:22 3800

原创 hive集成hbase之创建映射表的两种方式

hive-hbase映射表内部表:新表格,原hbase中不含该表,在hive中删除映射表亦会同步删除hbase中被映射的表;外部表:hbase中含有该表格,在hbase建立映射表,hive中的映射表被删除不影响hbase中的表

2022-06-06 16:25:47 2116

原创 hive安装及整合hbase

整合原理:Hive与HBase整合的实现是利用两者本身对外的API(应用程序编程接口)互相通信来完成的, HBase作为分布式的NOSQL数据库,并不支持传统的SQL查询,通过将Hive框架与HBase进行集成,我们可以实现使用HQL对HBase的数据进行操作,当我们使用HBase与Hive集成,其本质是Hive作为HBase的客户端。整合意义:①通过Hive把数据加载到HBase中②通过整合,让HBase可以进行多表关联查询及复杂的数据分析...

2022-06-05 14:43:30 978

oracle练习题39题(附个人编码答案)

编写SQL查询来交换每两个连续的学生的座位号。如果学生的数量是奇数,则最后一个学生的id不交换,按 id 升序 返回结果表。 /* Write your PL/SQL query statement below */ select case when mod(id,2)=1 and id=(select count(*) from seat) then id when mod(id,2)=1 then id+1 else id-1 end id,student from seat order by id ; /* Write your PL/SQL query statement below */ select rank() over(order by (case when mod(id,2)=0 then id-1 else id+1 end)) id,student from seat;

2023-03-21

zookeeper+hadoop+hbase+hive(集成hbase)安装部署教程(超详细).docx

说明: 1. 安装软件版本: jdk1.8.0_131、apache-zookeeper-3.8.0、hadoop-3.3.2、hbase-2.4.12 mysql5.7.38、mysql jdbc驱动mysql-connector-java-8.0.8-dmr-bin.jar、 apache-hive-3.1.3 2.本文软件均安装在自建的目录/export/server/下 :sudo mkdir -p /export/server 创建好目录后要改变该目录的属主和属组 :sudo chown -R ljr:ljr /export 修改目录权限:sudo +771 -R /export -R 表示递归,即export目录下的所有文件及目录的属组和属组以及权限均跟随着改变 3.集群能正常运行的条件是集群可节点宕机数应保证有超过集群机器总数一半的机器在运行,因此从经济和实用性来说,集群的节点一般是奇数个,本文部署4台机器,其容灾能力与部署3台机器一致,即只能宕机1台

2022-06-01

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除