![](https://img-blog.csdnimg.cn/20201014180756738.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
数据库
文章平均质量分 92
Yore Yuen
会持续分享大数据等知识,一起交流,共同进步
展开
-
Apache Kudu 从源码开始构建并部署 Kudu 集群
主要介绍了Apache Kudu 最新版 1.15.0 版本的编译及部署。为了对整个部署有一个更加明确的过程,前面又对 Kudu 进行了简要的介绍。编译中需要注意的事项,部署中的配置等,以及部署完成后,对集群的读写进行测试校验。最后是整理的一个常用命令。原创 2022-04-10 23:03:29 · 3261 阅读 · 0 评论 -
HBase集群升级, 通过HBase rpm 或 tar包形式(以HDP 为例,包含 升级及HBCK2 介绍和使用)
HBase 作为 HBase 生态圈重要的组建,在海量数据分析中占有重要的位置。随着 HBase 版本迭代,生产环境的 HBase 难免会面对升级的需求,升级的原因,要么是需要用到新版本的特性,要么是当前的版本存在不得不升级的缺陷,等。本文以 HDP 环境为例,详细介绍了 HBase 的编译及 rpm 包的生产过程,来对生产环境中的 HBase 进行升级。其中介绍 RPM 的基础知识,同时也介绍了两种生成 RPM 包的方式原创 2022-04-10 23:00:06 · 3315 阅读 · 1 评论 -
手动安装Hive 3(以 hdp 为例,适用于 CentOS 8)
本文详细讲述了 Hive 3 的安装过程(包括 Hadoop、ZooKeeper、Tez、Hive),使用 Tez 引擎,基于 HDP 版展开,使用于 CentOS7 和 CentOS8 系统,同时 针对于生产环境重点介绍了重要配置项的推荐值。最后有给出了方便使用的测试,以及 Hive SQL 的小实例。原创 2021-10-07 06:40:46 · 1883 阅读 · 0 评论 -
一个大数据环境下表结构统一导出的工具
本文介绍了一个可以统一导出大数据环境中的多种数据库的表,详细介绍了打包和使用,包括导出 Phoenix、HBase、Hive、Impala、Kudu、ClickHouse、MySQL 的 DDL 的使用示例。原创 2021-09-21 20:10:10 · 962 阅读 · 0 评论 -
Apache Doris 的一场编译之旅
本文主要针对 Apache Doris 的编译进行了详细介绍,包括了通过 Docker 开发环境和直接编译两种方式,其中直接编译部分包括编译前对环境的要求,及重要编译环境的安装设置,以及编译过程中出现的问题给出了解决方法供参考,最后为了方便大家编译,又提供了下载连接原创 2021-02-05 17:24:18 · 2105 阅读 · 5 评论 -
Apache Hive+Kerberos安装配置及 Kettle(Pentaho)访问带 Kerberos 认证的 Hive的集成
本文重点介绍了客户端如何访问带有 Kerberos 认证的 Hive,其中客户端工具以 Kettle 和 DBeaver 为例。为了详细介绍整个过程,本文又介绍了如何基于 Apache 版本的 Hadoop 和 Hive 搭建带有 Kerberos 认证的大数据集群。Kerberos 客户端环境重点以 Windows 为例,因此也介绍了在 Windows 系统下如何安装 和使用 Kerberos。最后经过修改 DBeaver 和 Kettle 启动脚本,从而成功访问带有 Kerberos 认证的 Hive原创 2020-07-07 19:10:05 · 5923 阅读 · 13 评论 -
LDAP及CDH中服务的权限认证
主要对 LDAP 进行了介绍,重点选择 OpenLDAP进行了说明,重点是对 OpenLDAP的安装与配置进行了详细的说明。最后再将 LDAP 与 CDH 环境集成(主要以 Hive、Impala、Hue为例)。开启了LDAP 后对服务访问就需要加上用户认证,之后重点介绍了Hive、Impala的 JDBC、Beeline、脚本形式的使用,重点关注 Impala-shell 如何脚本化执行 sql 文件,最后重点注意在 Spring Boot 中访问 Impala时的几个注意点。原创 2020-04-19 11:22:58 · 4245 阅读 · 0 评论 -
ClickHouse 数据的更新(Mutation)
本文着重讲解了ClickHouse关于UPDATE数据时的一些问题,由一个需求引出,通过TPC-DS的数据集演示这种场景,接着通过 UPDATE、INSERT、VIEW方式尝试实现,期间会和MySQL对比,最终通过 INSERT实现这个需求。最后对比了和MySQL实现上的区别,并做了一个小节。原创 2019-11-21 14:25:19 · 21649 阅读 · 1 评论 -
ClickHouse介绍及安装(含集群方式)和使用
本文比较详细的介绍了 ClickHouse,包括其名字的来由、使用场景、不使用场景、特点,为了后面的部署和使用有重点介绍了 ClickHouse 的架构。当然核心的 ClickHouse 的引擎也对其做了介绍,数据类型。接着详细介绍了ClickHouse 的部署,包括集群方式部署,分布式表的使用,通过几个示例的使用让大家对 ClickHouse 有一个整体完整的认识。原创 2019-11-15 20:06:41 · 9129 阅读 · 12 评论 -
Apache Kylin的安装和使用
本文主要快速概要介绍了Apache Kylin是什么,Kylin的特点、应用场景、支持的大表数据量、性能、维度和度量、事实表和维表、Kylin常见的几种部署方式,硬件要求、软件要求。最后重点介绍了Kylin的安装和使用。原创 2019-10-07 07:20:27 · 2975 阅读 · 0 评论 -
Hive 架构
对Hive的官方文档中的Hive的架构部分的文档进行了翻译,其中包含了对Hive的架构的介绍,Hive的数据模型、元数据、使用元数据的Motivation,元数据对象、元数据架构、元数据接口、Hive查询语言、编译器、优化器、Hive APIs都有涉及。其中优化器部分的连接可以点开进行查阅,可以加深理解Hive SQL在优化方面所做的工作翻译 2019-08-09 15:37:38 · 1695 阅读 · 0 评论 -
Apache Druid (incubating) 安装及使用
主要对Druid进行了简要的介绍,包括概念和架构,以及常见的问题。接着以Single-service的方式自定义配置进行了部署和安装,以及对安装的后的Druid的简要使用原创 2019-07-22 05:28:29 · 6720 阅读 · 7 评论 -
Hive中的数据迁移--迁移多库数据以及实际遇到的问题解决
Hive的数据迁移其实就是对Hive的数据进行导入导出的操作。如果数据表不是很多,我们可以直接使用Hive SQL来处理,一张一张表的导出,然后在进行导入。 对Hive的数据进行操作,常用的是登陆Hive客户端命令,常用的方式一般有两种,①hive,直接进入;②通过Beeline,在shell中输入beeline,然后连接我们的Hive,输入beeline> !connection ...原创 2018-09-04 21:26:38 · 12927 阅读 · 4 评论 -
Windows/Mac系统Docker方式安装Mysql(包含对中文字符集 utf8 的支持)
主要介绍了Docker在常用的桌面操作系统下的安装,主要是Mac系统和Window10系统,并且介绍了安装中的注意事项,以及出现的问题的解决方法。Docker安装完毕后,为了加速镜像的下载,又介绍了Docker如何配置阿里云镜像。最后我们又在安装好的Docker快速启动MySQL,并针对使用存在的 编码乱码问题进行解决,重新编写 Dockerfile,生成支持 utf8 的 mysql 镜像,并成功解决问题。原创 2020-12-25 17:02:38 · 3897 阅读 · 0 评论 -
基于Spark Streaming + Canal + Kafka对Mysql增量数据实时进行监测分析
Spark中的Spark Streaming可以用于实时流项目的开发,实时流项目的数据源除了可以来源于日志、文件、网络端口等,常常也有这种需求,那就是实时分析处理MySQL中的增量数据。面对这种需求当然我们可以通过JDBC的方式定时查询Mysql,然后再对查询到的数据进行处理也能得到预期的结果,但是Mysql往往还有其他业务也在使用,这些业务往往比较重要,通过JDBC方式频繁查询会对My...原创 2019-03-19 15:29:26 · 5280 阅读 · 14 评论 -
Hive中的自定义分隔符(包含Hadoop和Hive详细安装)
导出到 HDFS 或者本地的数据文件,需要直接导入 Hive 时,有时包含特殊字符,按照给定的字段单字符分隔符或者默认换行分隔符,插入到 Hive 的数据可能不是我们预期的,此时需要我们自定义 Hive 的分隔符。同时Hive默认只支持单字符,如果需要支持多字符作为分隔符,可以按照如下方式重写输入格式化类来自定义分割符,也可以进行一些设置,并在建表时声明出来分割方式。下面会分别介绍这两种方式。在介绍之前先准备环境,介绍一下Hadoop和Hive的安装。原创 2019-04-04 15:34:34 · 3386 阅读 · 5 评论 -
大数据的分布式SQL查询引擎 -- Presto的详细使用
本文主要介绍了Presto ,具体介绍了Presto的概述、概念(包括服务进程、数据源、查询执行模型)、整体架构、详细的集群安装方式(服务端安装配置、客户端)、Web客户端工具yanagishima的安装和使用。Presto的使用(MySQL、Hive、Kudu、Kafka等,还有JDBC、Kafka实时数据的获取和使用)。它是一个在 Facebook 主持下运营的开源项目。Presto是一种旨在使用分布式查询有效查询大量数据的工具,Presto是专门为大数据实时查询计算呢而设计和开发的产品。原创 2019-05-19 23:33:15 · 2786 阅读 · 0 评论 -
Impala: A Modern, Open-Source SQL Engine for Hadoop (Impala:适用于Hadoop的现代开源SQL引擎)
Cloudera Impala 是一个现代化的开源 MPP SQL引擎,专为Hadoop数据处理环境而设计。 Impala 为 Hadoop上 的 BI或者以主要以读为主的分析提供低延迟和高并发性,而不是由Apache Hive等批处理框架提供。本文从用户的角度介绍了Impala,概述了其体系结构和主要组件,并简要论述了与其他流行的 SQL-on-Hadoop 系统相比的优越性能。翻译 2019-06-22 21:51:49 · 1818 阅读 · 0 评论 -
Apache Druid (incubating) is a high performance real-time analytics database
官网 | GitHub | Docs目录一、Home1.1 Overview1.2 Learn more (更多了解)二、Techology (技术)2.1 Integration2.2 Ingestion2.3 Storage2.4 Querying2...翻译 2019-07-10 12:47:47 · 489 阅读 · 0 评论 -
Phoenix的搭建和使用
Phoenix详细的信息可以查看: 官网 | apache/phoenix | DownloadCDH6中集成的HBase版本为2.1.0+cdh6.2.0 ,我们从官方的镜像资源下载列表中看到最新的CDH支持到cdh5.14.2的版本,这种版本的直接有一个parcels包,可以通过Cloudera Ma...原创 2019-07-17 06:03:07 · 2728 阅读 · 8 评论 -
Centos7环境下离线安装mysql 5.7 / mysql 8.0
一、下载Mysql的安装包到mysql官网下载自己想要安装的mysql的版本(例如现在下载社区版64位linux版)或者直接通过wget下载mysql-5.7.22的安装包:64位 # wget https://cdn.mysql.com//Downloads/MySQL-5.7/mysql-5.7.25-linux-glibc2.12-x86_64.tar.gz...原创 2017-08-20 20:50:47 · 3971 阅读 · 6 评论