Yore Yuen-CSDN博客

原创 Hive内表修改字段类型及注意事项

对于Hive内表，如果数据目录中已经存在数据，且不能改动的的情况下，如何修改表结构，以及处理此问题需要注意的问题

2025-12-17 16:54:44 814

原创一个实用的 Maven localRepository 工具

Maven 使用遇到的一些问题，及分析这些问题的处理经验，最后分享一个实用的 Maven localRepository工具来完美解决这个问题

2024-11-30 18:39:57 2111 1

翻译湖仓存储系统的分析和比较

在该论文中，我们分析了三种最受欢迎的湖仓存储系统的设计——Delta Lake、Hudi、Iceberg，并基于这些设计比较了它们在不同维度之间的性能和特点

2023-10-09 09:50:09 829

Kafka 引入的新认证机制，主要是为了实现与 OAuth2 框架的集成，Kafka 不提倡单纯使用 OAUTHBEARER，因为它生成的不安全 Json Web Token，必须配以 SSL 加密才能在生产环境中使用。主要是为 Kerberos 使用，如果当前已有 Kerberos 认证，只需要为集群中每个 Broker 和访问用户申请 Principle ，然后在 Kafka 配置文件中开启 Kerberos 的支持即可。ZK服务地址可以使用Kafka自带的，也可以使用已部署在的ZK。

2023-03-15 14:59:50 2311 1

原创 Apache Kudu 从源码开始构建并部署 Kudu 集群

主要介绍了Apache Kudu 最新版 1.15.0 版本的编译及部署。为了对整个部署有一个更加明确的过程，前面又对 Kudu 进行了简要的介绍。编译中需要注意的事项，部署中的配置等，以及部署完成后，对集群的读写进行测试校验。最后是整理的一个常用命令。

2022-04-10 23:03:29 4323

原创 HBase集群升级, 通过HBase rpm 或 tar包形式(以HDP 为例，包含升级及HBCK2 介绍和使用)

HBase 作为 HBase 生态圈重要的组建，在海量数据分析中占有重要的位置。随着 HBase 版本迭代，生产环境的 HBase 难免会面对升级的需求，升级的原因，要么是需要用到新版本的特性，要么是当前的版本存在不得不升级的缺陷，等。本文以 HDP 环境为例，详细介绍了 HBase 的编译及 rpm 包的生产过程，来对生产环境中的 HBase 进行升级。其中介绍 RPM 的基础知识，同时也介绍了两种生成 RPM 包的方式

2022-04-10 23:00:06 4161 1

原创手动安装Hive 3(以 hdp 为例，适用于 CentOS 8)

本文详细讲述了 Hive 3 的安装过程（包括 Hadoop、ZooKeeper、Tez、Hive），使用 Tez 引擎，基于 HDP 版展开，使用于 CentOS7 和 CentOS8 系统，同时针对于生产环境重点介绍了重要配置项的推荐值。最后有给出了方便使用的测试，以及 Hive SQL 的小实例。

2021-10-07 06:40:46 2246

翻译 In Search of an Understandable Consensus Algorithm(寻找可理解的共识算法)

Raft 是一种用于管理复制日志的共识算法，它产生的结果等价于(multi-)Paxos，与 Paxos 一样高效但它的结构与Paxos不同；这使得 Raft 比 Paxos 更易于理解，也为构建实际系统提供了更好的基础。为了增强可理解性，Raft 将共识的关键要素（例如 leader 选举、日志复制和安全性）分离，并强制执行更强的一致性以减少必须考虑的状态数量。用户研究的结果表明 Raft 比 Paxos 更容易让学生学习。Raft 还包括一种用于更改集群成员的新机制，该机制使用重叠多数票（overla

2021-09-21 20:13:56 3223

原创一个大数据环境下表结构统一导出的工具

本文介绍了一个可以统一导出大数据环境中的多种数据库的表，详细介绍了打包和使用，包括导出 Phoenix、HBase、Hive、Impala、Kudu、ClickHouse、MySQL 的 DDL 的使用示例。

2021-09-21 20:10:10 1434

原创 Apache Doris 的一场编译之旅

本文主要针对 Apache Doris 的编译进行了详细介绍，包括了通过 Docker 开发环境和直接编译两种方式，其中直接编译部分包括编译前对环境的要求，及重要编译环境的安装设置，以及编译过程中出现的问题给出了解决方法供参考，最后为了方便大家编译，又提供了下载连接

2021-02-05 17:24:18 2770 5

翻译 HDP 之 Timeline Service 2.0

本文树妖介绍了 HDP 之上的 Timeline Service 2.0。包含体系结构、安装、System Service模式、ats-hbase 的生命周期管理、ats-hbase清除、发布 Application-Specific 数据、Timeline Service 2.0 的 REST API 等内容

2021-01-17 06:06:15 4728 2

原创 Windows/Mac系统Docker方式安装Mysql(包含对中文字符集 utf8 的支持)

主要介绍了Docker在常用的桌面操作系统下的安装，主要是Mac系统和Window10系统，并且介绍了安装中的注意事项，以及出现的问题的解决方法。Docker安装完毕后，为了加速镜像的下载，又介绍了Docker如何配置阿里云镜像。最后我们又在安装好的Docker快速启动MySQL，并针对使用存在的编码乱码问题进行解决，重新编写 Dockerfile，生成支持 utf8 的 mysql 镜像，并成功解决问题。

2020-12-25 17:02:38 4325

翻译 The Pathologies of Big Data（大数据病理）

本文详细描述了大数据的产生原因，为了找到大数据产生的原因，论文前部分通过一份伪数据分析了传统情况下处理数据出现的问题，接着有分析了计算机的硬件，通过磁盘、SSD、内存的顺序读写和随机读写的对比，找到了处理解决大数据问题的规则，接着这个规则对面对的问题给出了解决方法，最终为大数据下定了一个定义。

2020-10-31 10:04:38 2241

翻译 Flink Streaming (DataStream API) Event Time

本文主要介绍了Flink DataStream 事件时间（Event Time），其中包含水印（Watermarks）生成、水印策略、水印使用与编写、Kafka 连接器与水印、内置水印生成器等知识点。

2020-10-20 22:25:36 450

原创 R + RStudio(Server) + Spark/Hive 处理数据集

本文重点介绍了R环境的配置、RStudio Server 的安装，及中间出现的问题的解决。有详细介绍了使用 RStudio 如何以 local和 cluster 两种方式连接 Spark。最后使用我们安装集成的环境运行实现一个 WordCount & TOPN 的功能，快速熟悉体验 RStudio + Spark 处理数据集。最后以`了获取每个店铺排名前3的顾客`演示了 R 连接 Hive 对数据进行处理的。

2020-08-20 18:34:00 1708

原创 Apache Hive+Kerberos安装配置及 Kettle(Pentaho)访问带 Kerberos 认证的 Hive的集成

本文重点介绍了客户端如何访问带有 Kerberos 认证的 Hive，其中客户端工具以 Kettle 和 DBeaver 为例。为了详细介绍整个过程，本文又介绍了如何基于 Apache 版本的 Hadoop 和 Hive 搭建带有 Kerberos 认证的大数据集群。Kerberos 客户端环境重点以 Windows 为例，因此也介绍了在 Windows 系统下如何安装和使用 Kerberos。最后经过修改 DBeaver 和 Kettle 启动脚本，从而成功访问带有 Kerberos 认证的 Hive

2020-07-07 19:10:05 7406 13

原创基于 Docker 的几种常用 CentOS7 镜像

本文介绍了 Docker 的安装及使用，利用 Docker 构建几个开发测试中常用的 CentOS 镜像环境：基础纯净版、大数据开发环境版、带数据库（目前是MySQL）版。中间又介绍了镜像的制作及如何上传到案例云镜像仓库，方便大家和自己在使用环境时快速拉取和下载

2020-07-07 19:01:17 32520 6

原创 DataX HdfsReader 源码分析，及空文件 Bug修复和路径正则功能增强

本文主要在源码层面介绍了 DataX hdfsreader 模块，针对实际生产环境中出现的两个问题，一个是当用普通方式在 json 中指定 path 时，改文件夹下存在空文件时异常；以及当使用正则方式指定 path 时当前仅支持单字符和多字符，而直接使用字符集或者范围时会报错。针对这两个 Bug 在源码层面上进行了修复。

2020-05-22 21:33:23 3922 3

原创 DataX Transformer从入口到加载的源码分析及UDF扩展与使用

本文重点介绍了阿里的开源异构数据离线同步工具 DataX中的 Transformer 组件的源码分析，及自定义扩展和使用，其中为了更好的使用 Transformer UDF 又对这部分的源码从入口到加载的整个过程进行分析。本文以解密为示例，详细介绍了 DataX Transformer 中的 UDF 的使用和自定义扩展。

2020-05-20 22:00:04 4109 1

原创 aarch64架构（ARMv8）系统环境下编译 Ambari

本文主要介绍了在 aarch64架构系统（ARM v8）下的 Ambari和 HDP的移植，重点对 Ambari 的编译及中间出现的问题的解决方法，并提供了最终的华为官方的镜像资源包的下载连接。

2020-05-20 19:02:28 9664 22

原创 LDAP及CDH中服务的权限认证

主要对 LDAP 进行了介绍，重点选择 OpenLDAP进行了说明，重点是对 OpenLDAP的安装与配置进行了详细的说明。最后再将 LDAP 与 CDH 环境集成（主要以 Hive、Impala、Hue为例）。开启了LDAP 后对服务访问就需要加上用户认证，之后重点介绍了Hive、Impala的 JDBC、Beeline、脚本形式的使用，重点关注 Impala-shell 如何脚本化执行 sql 文件，最后重点注意在 Spring Boot 中访问 Impala时的几个注意点。

2020-04-19 11:22:58 5655

原创 Kerberos简介、安装及与其它服务的集成和使用

本文主要介绍了 Kerberos 在大数据环境中的搭建和使用，主要以 CDH 平台环境为例。同时又介绍了如何使用 Beeline 将本地SQL 脚本远程提交的Kerberos认证的 Hive中执行，包括批量脚本执行。最后有介绍了 DataX 离线同步数据到 Kerberos 认证的 HDFS时的配置及注意点。

2020-04-01 19:03:43 3144

翻译 A guided tour of Kerberos: Tutorial

本教程由 Fulvio Ricciardi 撰写，这篇文章对 Kerberos 要解决的问题、设计目的，以及涉及导的组件术语名词做了尽可能详细的描述，Kerberos 整个请求认证的过程也做了比较详细的描述，对快速入门 Kerberos 是一篇非常棒的指南教程文档。

2020-04-01 09:30:00 1226

原创 Apache DolphinScheduler集群升级/安装(1.2.1 & 1.3.0)

主要对 Apache DolphinScheduler最近的几个版本进行了说明，方便大家选择需要的版本进行安装。同时有重点介绍了最新版本 Apache DolphinScheduler 1.2.1的集群方式的部署，包括全新方式的安装方式，和在旧版本 1.1.0 上的升级，以及中间需要注意的几个点。最后又更新了 DS 1.3.0 的升级安装。

2020-03-10 05:19:35 4261 4

原创 Beeline 的进阶使用

本文对Beeline做了较为详细的介绍，以及Beeline命令的参数和输出格式。接下来有分别介绍了使用 Beeline 连接本地或远程连接 Hive 、Impala 和 MySQL 的方式和命令。其中涉及到sql 语句的执行、sql 脚本的执行、交互式命令行的使用等，中间又介绍了在脚本化或者批量运行脚本时的后台脚本执行的方式，每一种方式对参数都有详细的说明，并且配有示例。

2020-03-04 21:57:14 7184 2

原创 HDFS 文件和 Hive 权限问题

本文详细讲解了Linux的文件权限问题，以及重点介绍了 HDFS 的文件权限问题和 Hive的权限问题。

2019-12-14 16:55:34 5992 1

原创七牛云对象存储服务——实现Spring Boot多文件(图片)上传接口

本文详细实战讲解了 Spring Boot 多文件上传接口的开发，中间重点介绍了第三方云服务的使用，本次主要以七牛云为例。同时项目又介绍了用户认证、默认的Json替换为fastjson、文件上传中注意的事项等。

2019-12-12 00:30:20 1977

原创 ClickHouse 数据的更新（Mutation）

本文着重讲解了ClickHouse关于UPDATE数据时的一些问题，由一个需求引出，通过TPC-DS的数据集演示这种场景，接着通过 UPDATE、INSERT、VIEW方式尝试实现，期间会和MySQL对比，最终通过 INSERT实现这个需求。最后对比了和MySQL实现上的区别，并做了一个小节。

2019-11-21 14:25:19 24021 1

原创 ClickHouse介绍及安装(含集群方式)和使用

本文比较详细的介绍了 ClickHouse，包括其名字的来由、使用场景、不使用场景、特点，为了后面的部署和使用有重点介绍了 ClickHouse 的架构。当然核心的 ClickHouse 的引擎也对其做了介绍，数据类型。接着详细介绍了ClickHouse 的部署，包括集群方式部署，分布式表的使用，通过几个示例的使用让大家对 ClickHouse 有一个整体完整的认识。

2019-11-15 20:06:41 12393 13

原创 Ansible Quickstart

本文主要介绍了Ansible工具，它是一个是python 中的一套模块，系统中的一套自动化工具，只需要使用ssh协议连接及可用来系统管理、自动化执行命令等任务。通过这个工具我们能够实现很多的任务，比如自动化部署，脚本的远程提交执行，远程定时任务的设置，等等。

2019-11-11 15:00:01 619

原创工作流任务调度系统：Apache DolphinScheduler

Apache DolphinScheduler（目前处在孵化阶段，原名为EasyScheduler）是一个分布式、去中心化、易扩展的可视化DAG工作流任务调度系统，其致力于解决数据处理流程中错综复杂的依赖关系，使调度系统在数据处理流程中开箱即用。本文对DolphinScheduler做了简要的概述，并详细讲解了其安装，通过简单的例子快速开始并使用。最重要的是Worker分组和数据源的添加，以及与Azkaban的对比。

2019-11-02 14:59:51 73771 62

原创 Spark 中数据转换及DataFrame数据的行转列

本文主要讲述了如何使用Spark将行数据转换为列数据。Spark中DataFrame的数据可能是一个行形式的数据，我们可以通过 pivot 算子将其转换为列形式的数据，处理后的数据类型依然为DataFrame，后续我们可以将其注册为临时视图对其做下一步的处理，最终将满足需求的数据按照给定的格式输出。

2019-10-12 15:54:09 5873

原创 Apache Kylin的安装和使用

本文主要快速概要介绍了Apache Kylin是什么，Kylin的特点、应用场景、支持的大表数据量、性能、维度和度量、事实表和维表、Kylin常见的几种部署方式，硬件要求、软件要求。最后重点介绍了Kylin的安装和使用。

2019-10-07 07:20:27 3891

翻译 The Part-Time Parliament

本文主要翻译自1998年Lamport发表的论文The Part-Time Parliament，这篇论文其实是作者早在8年前提出了，也就是分布式系统中的数据一致性的一种全新的算法—Paxos算法。非常值得阅读的一篇论文

2019-09-23 13:50:09 1052

原创大数据环境中的系统磁盘的常见问题

本文主要针对CentOS7系统挂载点空间不够的情况下，如何对其进行扩容。将新添加的磁盘的容量通过创建多个主分区，然后添加的对应的卷组，进而扩展逻辑分区大小，从而解决空间使用率过高的警报问题。

2019-09-20 23:33:18 2466

原创 CarbonData部署和使用

本文主要介绍了华为开源的一个新型的大数据列式存储格式CarbonData。简要描述了CarbonData的特性。有介绍了CarbonData的安装以及和Spark的集成，最后在spark-shell中通过编程执行SQL，测试了CREATE、LOAD、SELECT、INSERT、UPDATE、DELETE

2019-08-30 18:35:10 5136 5

原创 DataX离线数据同步

本文主要介绍了常用的数据同步方案和使用的工具或平台，重点介绍了DataX，介绍了DataX的诸多便利之处，以及架构和DataX的调度流程。然后又介绍了DataX的各个数据源之间的离线数据同步，包括ODPS到HDFS、HDFS到HDFS、MongoDB到HDFS，以及CDH版本Impala支持的文件格式和DataX支持的格式差别，最后是MongoDB同步时带密码认证失败时的临时解决方案。最后针对于带有 Kerberos 认证的域外数据同步，讲解了配置及注意点。

2019-08-26 19:15:07 2725

原创 Azkaban的安装和使用

Azkaban是一个开源的工作流管理器，本文主要介绍了Azkaban的编译以及问题解决，Azkaban多Executor的安装和执行，中间包括MySQL数据库初始化设置、Executor服务端配置、Web端配置和用户权限配置等，最后执行一个小的测试项目查看Azkaban是否正常在执行服务端被调度执行。最终的是介绍了使用Azkaban指定节点的任务调度的几种方案：通过Azkaban指定、通过Expect脚本或shell方式指定、通过Ansible。

2019-08-22 16:04:21 3176

翻译 Hive 架构

对Hive的官方文档中的Hive的架构部分的文档进行了翻译，其中包含了对Hive的架构的介绍，Hive的数据模型、元数据、使用元数据的Motivation，元数据对象、元数据架构、元数据接口、Hive查询语言、编译器、优化器、Hive APIs都有涉及。其中优化器部分的连接可以点开进行查阅，可以加深理解Hive SQL在优化方面所做的工作

2019-08-09 15:37:38 2039

原创 Elasticsearch 6.x安及其Kibana和head插件安装

本次主要围绕Elasticsearch安装展开，包含安装常遇到的问题，比如ES登陆用户的用户名和密码设置、ES中文分词器、head插件在设置了ES密码之后如何能够继续正常使用、head插件经常自动挂了的解决、Kibana和ES的集成和安装，Kibana 白银License认证、ES开启TLS等。

2019-08-04 17:14:46 1120 10

Ganglia系统监控的安装

详细介绍了在Centos环境下安装系统监控软件Ganglia，本资源共共10页，带目录

2018-06-29

tomcat-redis-session-manager的jar包-包含Tomcat7和Tomcat8

基于tomcat-redis-session-manager源码进行的编译生成的jar包，压缩包中包含Tomcat7和Tomcat8打好的jar包。

2018-06-28

orc-tools-1.7.0-SNAPSHOT-uber.jar

基于 Apache ORC 最新分支1.7源码编译的 orc-tools-1.7.0-SNAPSHOT-uber.jar，主要为 ORC 的一个 Java 工具包，工具使用文档可以看到官方文档https://orc.apache.org/docs/java-tools.html，支持 meta、data、scan、convert、json-schema命令。

2020-11-06

hbase-meta-repair-hbase-2.0.2.jar

HBase 元数据修复工具包。 ①修改 jar 包中的application.properties，重点是 zookeeper.address、zookeeper.nodeParent、hdfs.root.dir配置项，hdfs 最好写 ip； ②将core-site.xml、hdfs-site.xml添加到BOOT-INF/classes 下； ③开始修复 `java -jar -Drepair.tableName=表名 hbase-meta-repair-hbase-2.0.2.jar`

2020-12-16

The Part-Time Parliament.zip

资料中包含了论文的英文原文、论文的中文翻译——经过我的校验和重新翻译（pdf版和docx版）。该论文主要是Leslie Lamport在1998年发表的一篇论文The Part-Time Parliament，在这篇论文Lamport介绍了一种全新的数据一致性算法——Paxos算法，是研究计算机科学非常值得读的一篇论文，尤其是大数据中的分布式数据一致性的问题。

2019-09-23

x-pack-core-6.8.0-SNAPSHOT.jar

基于Elasticsearch 6.8.0源码编译而得，主要修改了其中的org.elasticsearch.license.LicenseVerifier.java类和org.elasticsearch.xpack.core.XPackBuild.java类，对x-pack/plugin/core模块代码重新编译而成，可适用于es 6.8.x版本，其它版本未验证。使用时直接替换es安装文件夹下的 modules/x-pack-core/x-pack-core-6.8.x.jar包即可

2019-08-04

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人