Daphnis_z-CSDN博客

原创记一次Flink任务无限期INITIALIZING排查过程

环境：Flink-1.16.1，部署模式：Flink On YARN，现象：Flink程序能正常提交到 YARN，Job状态是 RUNNING，而 Task状态一直处于 **INITIALIZING**，排查思路有...

2024-03-07 22:00:00 1098

原创 Ambari动态给YARN分配计算节点

YARN可用的计算节点数量并不总是等于 Hadoop集群节点数量，可以根据业务需求分配 YARN计算节点数量。

2024-03-04 20:07:46 501

原创 Flink使用 KafkaSource消费 Kafka中的数据

很多 flink相关的书籍和网上的文章讲解如何对接 kafka时都是使用的 FlinkKafkaConsume，'org.apache.flink.streaming.connectors.kafka.FlinkKafkaConsumer' is deprecated ，新版 flink应该使用 KafkaSource来对接 kafka。

2023-03-21 21:22:23 1794 1

原创大数据集群搭建方案对比

回顾从前，已经在大数据领域混了5年了，经手了不少大数据集群搭建方案，自己也做过许多大数据平台的运维工作，在这里进行阶段性的总结，主要是原生Hadoop、CDH、Ambari集群搭建对比。

2023-03-19 12:17:06 978

原创离线和实时数仓技术架构梳理

对目前流行的离线数仓和实时数仓架构进行了梳理和对比

2023-03-02 20:00:00 3325

原创 Kafka使用MirrorMaker同步数据的两种方式

CDH对 Kafka MirrorMaker的支持度不错，稳定性也能经得起时间的检验。另外，这种备份方式属于实时备份，很适合对数据完整性和及时性要求较高的项目，能最大程度地确保通过 kafka流转的数据的及时可用。还有一个好处是，当 kafka集群1因为某种原因无法工作时，可以迅速切换到集群2，且两个集群的数据几乎一致。

2022-12-22 12:05:24 3430

原创 HBase Shell启动缓慢及操作耗时长的原因分析与解决

在内网搭了一个 hbase-2.2.6（hadoop-2.7.3）的环境，使用的是其内置的 zookeeper-3.4.10，16010端口对应的 web界面可以正常访问，且各项功能正常。在使用 hbase shell的过程中，首先是 hbase shell启动非常慢，约 210s才成功，其次执行 scan、put、get等命令需要 20s左右才能完成。以笔者的经验，hbase肯定出问题了，不可能这么慢。

2022-11-17 20:00:00 3359 4

原创 Logstash对接 SNMP v2和 v3

老版的 logstash不支持 snmp协议，当时只能自己写插件实现，现在官方支持了，故验证其对 v2c和 v3两个版本 snmp的支持情况，并熟悉其用法。

2022-11-04 20:00:00 886

原创 Kibana自动优化索引模式字段显示

优化 Kibana Discover页面索引模式中字段的显示效果：0.98-> 98%，10240-> 10KB, 20.1-> $20.1。介绍如何使用脚本实现自动更新，以及如何在界面上手动修改的方法

2022-10-24 21:45:57 882

原创 DataX VS Kettle，深度对比分析

开源的 ETL工具里面 DataX和 Kettle的人气一直高居不下，datax虽然比较年轻，但这两年发展势头很猛，不时就能听到身边的同事谈起。kettle作为老牌的 etl工具，诞生年限长，功能完善，特别是其开箱即用的数据转换算子，不得不令人叹服。因此，笔者决定对这两款工具进行深入的对比分析，有多深呢，到源码那种。

2022-10-19 20:15:00 13063 1

原创站在使用者的角度研究 List 源码

站在使用者的角度研究下 List 源码，对其核心方法进行梳理，发现 List除了增删改查，还有部分实用的集合运算。ArrayList作为其实现类之一，方法的实现逻辑较为清晰简洁，在集合运算中还调用了 native方法。在代码风格上也很有借鉴意义，比如使用 Objects.requireNonNull()方法进行 null判断，使用 'E'来表示本集合元素类型，用 '?'来表示其他未知集合的元素类型。

2022-10-12 22:20:49 339

原创 Elasticsearch生产环境使用总结及扩展

本文从基本概念、数据类型、查询类型、数据聚合、集群维护等维度对 Elasticsearch进行了总结和介绍，中间融入了一些生产环境的实际经验。

2022-10-07 11:08:12 720

原创 Kibana生产上的常用功能总结

出差现场一个月总结 Kibana生产上的常用功能包含 discover，console，visualize，monitoring等的实用方法

2022-08-26 20:15:00 1382

原创 Java Socket服务端和客户端通讯实例

Java Socket服务端和客户端通讯实例本文在 java socket通讯的基础上，适当扩展了客户端认证、多客户端支持、心跳检测等功能

2022-08-10 17:52:05 1544

原创解决 Docker容器因 iptables无法启动的问题

解决 Docker容器因 iptables无法启动的问题driver failed programming external..iptables: No chain/target/match by that name

2022-07-30 16:41:20 4563 2

原创使用 Zookeeper命令行修改 Kafka Cluster ID

使用 Zookeeper命令行修改 Kafka Cluster IDkafka.common.InconsistentClusterIdException: The Cluster ID q3r3fhGkTya24-s3dfvYUQ doesn't match stored clusterId Some(kguWHlzQQGmCHczV3u38vQ) in meta.properties.

2022-07-27 17:55:06 1956

原创 MySQL高可用和灾备调研

1.高可用和灾备方案概览高可用方案的评价以组件能正常对外提供服务为主，而灾备方案的评价以数据稳定同步和恢复时间尽量短为主，其他的还要求方案实现起来较简单，后期运维服务压力较小等。当下业界比较流行的 mysql高可用灾备方案是主从复制和 galera，这里先对所有的方案进行简要介绍，然后详细介绍基于主从复制这一种方案。1.1 主从复制使用双节点数据库，搭建单向或者双向的半同步复制（semi sync replication）。在 5.7以后的版本中，由于 lossless replication、

2022-05-04 14:19:33 4090 2

原创分析升级 OpenSSH后 Linux open files配置不生效问题

1.现象Elasticsearch、Hadoop和 MongoDB等都需要修改 Linux里面最大打开文件数这个配置，即下面的 open files[root@localhost opt]# ulimit -acore file size (blocks, -c) 0data seg size (kbytes, -d) unlimitedscheduling priority (-e) 0file size

2022-04-10 15:59:21 5035

原创解决 OpenSSH开启 PAM后 root用户无法远程登录问题

1.现象OpenSSH版本：8.8p1在 openssh配置文件中开启 pam，如下：UsePAM yes发现在 windows上用远程连接工具无法以 root用户登录，其他的 linux服务器也无法以 ssh的方式登录该服务器。远程连接工具报错：Access denied2.分析从报错来看只能猜测是权限问题，具体原因还需要查看 Linux系统日志，这里简要介绍两个系统日志：/var/log/messages这里存放的是一些常规系统日志，一般的操作都能在这里找到对应日志，但是有的日志

2022-04-08 20:30:00 14957 2

原创通过 GC工具分析 HiveServer2停顿时间过长问题

1.现象线上环境 HiveServer2报：在前 5分钟内暂停所花的平均时间过长hs2角色日志如下：2.分析看到上面的报错和日志，第一个直觉就是 hs2 GC出问题了，于是使用 jstat命令进行分析：jstat -gcutil 82775 5000 5这里先简单介绍一下 jstat这条命令： -gcutil，打印 gc统计信息 82775，java进程ID 5000，5000ms 5，5次所以这条命令的含义为：每间隔 5000ms打印一次进程 82775的 gc

2022-04-01 20:15:00 3087

原创数据仓库VS数据湖

1.前言本文将新兴的数据湖技术和数据仓库技术进行了对比，然后简要介绍三种常见的数据湖实施方案。2.数据仓库痛点没有存储非结构化的数据这里并不是说数仓不能存储非结构化的数据，而是数仓的分层模型决定了数据会被规整计算为结构化的数据，然后在处理完成的数据上进行建模、分析等。一般的数仓分层模型：ODS-> DWD-> DWS-> APP。数据分析人员一般会在 APP或 DWS层上进行分析，而不会直接针对 ODS（原始数据层）进行分析。没有保留原始数据企业出于成本考虑，ODS层

2022-03-26 18:34:01 3525

原创 Java连接基于 LDAP认证的 Impala服务

1.前言本文将描述如何根据 impala官方文档使用 java连接 impala。使用的 impala版本：2.12.0。2.下载和安装 JDBC包2.1 下载 JDBC包官网下载地址：Download Impala JDBC Connector这里需要根据 impala的版本选择对应的 jdbc包，impala-2.12.0对应的包如下：打开下载压缩包，可以看到官方给的指引文档： Cloudera-JDBC-Driver-for-Impala-Install-Guide.pdf2.2

2022-03-08 20:30:00 1118

原创解决 HDFS edit log文件损坏问题

1.现象CDH集群 HDFS出现爆红项，具体原因是 JournalNode状态异常，查看角色日志如下：2.分析edit log文件里面存放的是hdfs一些状态信息，从报错来看是某个 edits文件无法读取导致的，结合最近服务器出现过一次集体断电，猜测是 edit log文件损坏了。3.解决查看集群组件状态，JournalNode一共有 3台机器，其中一台状态异常，另外两台状态良好，于是可以把从其中一台状态良好的机器上拷贝 edit log文件到状态异常的机器。具体步骤如下：停止集群所有服

2022-02-23 21:30:00 755

原创 Hive通过 ZooKeeper开启 HA（高可用）

前言生产上的大数据平台都会配置多个 HiveServer，在使用 JDBC这种方式连接 hive服务时，如果直接连接某个 HiveServer，当其所在机器异常时，就会导致服务不可用。因此，生产上一般都要求使用 ZooKeeper开启 HA，通过 zk去间接访问 hive服务。这里以 CDH 5.X为例介绍 Hive如何通过 ZooKeeper开启 HA。Hive开启 HA（高可用）修改界面配置打开 CDH界面，然后在 Hive配置里面搜索 hive-site，如下：然后添加如下配置项：

2022-02-17 20:00:00 3152

原创解决 HDFS副本数不足问题

1.现象CDH界面 HDFS出现爆红项，查看详情发现是副本数不足导致的，如下：HDFS和 CDH版本：2.6.0+cdh5.15.1+28222.分析报错是很明确的：接近 99%的 hdfs块副本缺失。默认情况下 hdfs的副本一般是3个，要求至少有3个 DataNode。出问题的集群是一个测试集群，之前一共有 3台机器，最近由于一台机器故障，现在集群只剩 2台机器了，问题应该就出在这里了。明确一下问题的原因：集群现有的机器数量不满足 3个 DataNode的要求，故导致副本数不足。

2022-01-27 15:56:14 4556

原创 Hive 简明使用教程

1.简介The Apache Hive ™ data warehouse software facilitates reading, writing, and managing large datasets residing in distributed storage using SQL. Structure can be projected onto data already in storage. A command line tool and JDBC driver are provided t

2022-01-18 15:09:52 2480

原创 NLP 算法工具箱（关键词、实体、摘要、文本相似度）

1.前言本项目包含几种常用 NLP算法的实现：关键词(keyword)、命名实体(named entity)、自动摘要(abstract)、文本相似度比较(text similarity)等。另外，本项目基于 python3，依赖 jieba,tensorflow等第三方库。2.NLP 工具箱简介2.1 关键词在 jieba的基础上，进行了一些封装。可以很方便的在 etc/user_words.dict中添加用户词典，以加强对一些领域特有关键词的识别。调用举例：kw_extract = Key

2022-01-16 11:44:31 988

原创 CentOS7搭建和维护共享 YUM源

1. 前言虽然互联网上已经有了多个公开的可以直接使用的 yum源，但是针对于内网（局域网）这种无法连接互联网，又需要安装维护多台服务器的场景，就需要搭建一个内网的共享 yum源了。此时，就会涉及如何搭建本地 yum源、从公开 yum源同步 rpm包，以及手动添加 rpm包等操作，这就是本文的主要内容。本文基于 CentOS7.9编写，应用场景为局域网多台服务器。2. 搭建多主机共享的 YUM源2.1 创建本地 YUM源这里使用 CentOS操作系统镜像文件作为本地 yum源的基础 rpm包。

2021-11-27 15:39:12 764

原创 Python调用 Java下载 FastDFS文件

1. 前言最近由于业务需求，需要使用 Python下载 FastDFS上的文件。一开始看到 Python有第三方包可以用就直接上了，但是需要处理的文件数量实在太大，导致经常出现文件积压的情况。经过分析，发现文件的下载速度是影响较大的因素之一，所以第一个程序调优思路就定为研究如何提高文件的下载速度。通过查阅资料，发现 FastDFS是使用 Java编写的，作者只提供了 Java版本的客户端，而 Python的客户端则是由其他开发者编写的。那么一个疑问就随之而来：会不会使用 Java下载文件会更快？2.

2021-09-26 22:15:17 240

空空如也

空空如也