怯生QAQ-CSDN博客

原创 flume_1安装

我们在开启虚拟机之后，一般会将高可用的Hadoop集群准备好，因此集群中已经包含zookeeper的服务，因此，建议将单节点的HBase配置在没有安装zookeeper的节点上.flume定义:flume是一个由Cloudera(课捞的爱rua)所提供的一个高可用,高可靠分布式的海量日志采集,聚合和传输系统,特点:灵活简单,流式架构.结论：只要是新文件都会被监听上传到hdfs中，但是如果新文件的名字是带.COMPLETED扩展名，因为这个扩展名是我们用来告诉flume区分是否被上传的文件的。

2025-05-14 00:05:22 804

原创老版_zabbix安装与grafana可视化的安装(zabbix插件4.1.4)

查询、可视化和理解数据，并获取数据警报，无论数据存储在何处。在 Grafana，您可以通过美观、灵活的数据面板创建、探索和共享所有数据。

2024-06-11 16:27:07 615

原创 mysql安装_改密码_找回密码

安装包准备好，删除cos7自带的 mysql）将安装包和JDBC驱动上传到/opt/module/mysql，共计**6 **个(1)安装依赖）安装mysql-client）安装mysql-server）启动mysql）查看2配置mysql配置只要是 root 用户+密码，在任何主机上都能登录 MySQL 数据库。）用刚刚查到的密码进入如果报错，给密码加单引号）*）更改mysq*密码策略）设置简单好记的密码**）进入**）查询）修改**%**）刷新）退出10)重启数据库。

2024-06-11 16:18:35 1186

原创 zeppelin(kylin的可视化界面安装)(从头到尾安装)

将30行ip地址修改成自己虚拟机ip地址，将36行端口号改成自己不会忘记的（尽量避开已经在使用的端口号）将zeppelin-site.xml.template拷贝一份为zeppelin-site.xml。5、将zeppelin-env.sh.template拷贝一份为zeppelin-env.sh。8、拷贝hive和Hadoop的jar包到zeppelin的jdbc目录下。9、至此，配置完成。7、将hive的配置文件拷贝到zeppelin的conf目录下。3、为了方便以后使用，将安装好的文件夹修改名字。

2024-06-07 15:08:39 753

原创 mysql数据库安装_修改密码_忘记密码(修改)

安装包准备好，删除cos7自带的 mysql）将安装包和JDBC驱动上传到/opt/module/mysql，共计**6 **个(1)安装依赖）安装mysql-client）安装mysql-server）启动mysql）查看2配置mysql配置只要是 root 用户+密码，在任何主机上都能登录 MySQL 数据库。）用刚刚查到的密码进入如果报错，给密码加单引号）*）更改mysq*密码策略）设置简单好记的密码**）进入**）查询）修改**%**）刷新）退出10)重启数据库。

2024-06-06 17:03:56 1112

原创 linux内 mysql 5版本的安装(有卸载)

配置只要是 root 用户+密码，在任何主机上都能登录 MySQL 数据库。安装包准备好删除linux内带mysql。）安装mysql-client。）安装mysql-server。如果报错，给密码加单引号）*）更改mysq*密码策略。）用刚刚查到的密码进入。）设置简单好记的密码。

2024-06-06 14:16:13 417

原创大数据组件一键启动shell代码

大数据组件一键启动shell代码。

2024-05-15 14:28:47 390

原创 10,hadoop优化与LZO压缩

namenode: 可以在当前节点中创建几个 namenode的多目录，就是虽说可以是多个目录，但是这个namenode多目录中，内容都是一样，就相当把namenode，多份保证他高可靠，但是这个没有必要，因为namenode，由于是单节点，为防止单节点的风险，往往会与zookeeper配置建立，namenode集群，只有一个namenode（leader）工作，其他namenode默默将（leader）同步过来。注意：每台服务器挂载的磁盘不一样，所以每个节点的多目录配置可以不一致。

2024-05-14 10:54:56 1012

原创 09.Hadoop的安装

需要在node2节点格式化NameNode（注意格式化之前，一定要先停止上次启动的所有namenode和datanode进程，然后再删除data和log数据。注意：开启日志聚集功能，需要重新启动NodeManager 、ResourceManager和HistoryManager。日志聚集概念：应用运行完成以后，将程序运行日志信息上传到HDFS系统上。注意：该文件中添加的内容结尾不允许有空格，文件中不允许有空行。日志聚集功能好处：可以方便的查看到程序运行详情，方便开发调试。

2024-05-14 10:42:13 769 1

原创数据仓库搭建

（2）/dev/null 代表 linux 的空设备文件，所有往这个文件里面写入的内容都会丢失，俗称“黑洞”。3.3使用脚本分发applog 根据搭建,只保留node2,node3上的applog。（1）/opt/module/applog/为 jar 包及配置文件所在路径。1）在/home/itwise/bin 目录下创建脚本 xcall.sh。(5)在bin目录下创建,my_rsync.sh脚本,用来发放文件。(4)创建bin文件夹,存放后面的脚本。(6)建立node2/3/4免密。

2024-04-23 08:35:59 464

原创 kafka_自定义Interceptor_producer

对于 producer 而言，interceptor 使得用户在消息发送前以及 producer 回调逻辑前有机会对消息做一些定制化需求，比如修改消息等。同时，producer 允许用户指定多个 interceptor按序作用于同一条消息从而形成一个拦截链(interceptor chain)。:interceptor 可能被运行在多个线程中，因此在具体实现时用户需要自行确保线程安全。

2024-04-17 08:52:21 482 1

原创 kafka_生产者API _Consumer

由于consumer在消费过程中可能会出现断电宕机等故障，consumer恢复后，需要从故障前的位置的继续消费，所以consumer需要实时记录自己消费到了哪个offset，以便故障恢复后继续消费。知识点：一组消费者，每个消费者负责一个分区，itwise会自动的去记录维护offset，但是对于一个后开启的新组的消费者，则看不到该生产者生产的topic中以前的数据，因为 offset默认的是latest，位置。为为了使我们能够专注于自己的业务逻辑，Kafka提供了自动提交offset的功能。

2024-04-17 08:51:31 1182 2

原创 Flume与Kafka对接

Flume组件： agent source channel sinkkafka组件：节点集群服务器 **consumer **

2024-04-17 08:50:21 1656 1

原创 Flume对接Kafka

Flume对接KafkaFlume组件： agent source channel sinkkafka组件：节点集群服务器 **consumer **

2024-04-17 08:49:55 1203 1

原创 flume_2 企业级案例

业务：要求：简单： flume1监听客户端端口号，输入数据：java:就到发送给 Flume2 上, hadoop: 就发送到 Flume3上1,首先创建一个maven工程：编写自己拦截器：

2024-04-13 09:29:49 888

原创 flume_1 简介、安装与应用

flume定义:flume是一个由Cloudera(课捞的爱rua)所提供的一个高可用,高可靠分布式的海量日志采集,聚合和传输系统,特点:灵活简单,流式架构.在 job 文件夹下创建 Flume Agent 配置文件 flume-netcat-logger.conf。结论：只要是新文件都会被监听上传到hdfs中，但是如果新文件的名字是带.COMPLETED扩展名，因为这个扩展名是我们用来告诉flume区分是否被上传的文件的。分解:监听一个文件,如果文件发生变化追加文件，将内容打印到控制台。

2024-04-13 09:23:09 552

原创 kafka_6数据监控

上传压缩包kafka-eagle-bin-14.5.tar.gz到集群/opt/software目录。修改kafka-server-start.sh命令中。注意：修改之后在启动Kafka之前要分发之其他节点。

2024-04-11 20:54:39 151

原创 Kafka_5_ API_同异步

回调函数会在producer收到ack时调用，为异步调用，该方法有两个参数，分别RecordMetadata和Exception，如果Exception为null，说明消息发送成功，如果Exception不为null，说明消息发送失败。由于send方法返回的是一个Future对象，根据Futrue对象的特点，我们也可以实现同步发送的效果，只需在调用Future对象的get方发即可。同步发送的意思就是，一条消息发送之后，会阻塞当前线程，直至返回ack。System.out.println(“真正发送”);

2024-04-11 20:52:53 696

原创 kafka_4自定义分区器代码

@param topic 当前消息发往的主题* @param key 当前消息的key。* 计算分区号以first主题为例，有两个分区. 包含itwise的消息发送0号分区。* @param valueBytes 当前消息的值序列化后的字节数组。* @param keyBytes 当前消息的key序列化后字节数组。自定义分区器需要实现Kafka提供的partitioner接口。1）默认的分区器 DefaultPartitioner。* @param value 当前消息的值。

2024-04-11 20:51:31 214

原创 kafka_3架构深入详情与api使用

在图中，有一个由三个消费者组成的group，有一个消费者读取主题中的两个分区，另外两个分别读取一个分区。为保证 producer 发送的数据，能可靠的发送到指定的 topic，topic 的每个 partition 收到producer 发送的数据后，都需要向 producer 发送 ack（acknowledgement 确认收到），如果producer 收到 ack，就会进行下一轮的发送，否则重新发送数据。这与磁盘的机械机构有关，顺序写之所以快，是因为其省去了大量磁头寻址的时间.

2024-04-11 20:49:28 1179

原创 linux集群环境与flume监听案例