工具
文章平均质量分 89
Yore Yuen
会持续分享大数据等知识,一起交流,共同进步
展开
-
一个大数据环境下表结构统一导出的工具
本文介绍了一个可以统一导出大数据环境中的多种数据库的表,详细介绍了打包和使用,包括导出 Phoenix、HBase、Hive、Impala、Kudu、ClickHouse、MySQL 的 DDL 的使用示例。原创 2021-09-21 20:10:10 · 970 阅读 · 0 评论 -
R + RStudio(Server) + Spark/Hive 处理数据集
本文重点介绍了R环境的配置、RStudio Server 的安装,及中间出现的问题的解决。有详细介绍了使用 RStudio 如何以 local和 cluster 两种方式连接 Spark。最后使用我们安装集成的环境运行实现一个 WordCount & TOPN 的功能,快速熟悉体验 RStudio + Spark 处理数据集。最后以`了获取每个店铺排名前3的顾客`演示了 R 连接 Hive 对数据进行处理的。原创 2020-08-20 18:34:00 · 1124 阅读 · 0 评论 -
Apache Hive+Kerberos安装配置及 Kettle(Pentaho)访问带 Kerberos 认证的 Hive的集成
本文重点介绍了客户端如何访问带有 Kerberos 认证的 Hive,其中客户端工具以 Kettle 和 DBeaver 为例。为了详细介绍整个过程,本文又介绍了如何基于 Apache 版本的 Hadoop 和 Hive 搭建带有 Kerberos 认证的大数据集群。Kerberos 客户端环境重点以 Windows 为例,因此也介绍了在 Windows 系统下如何安装 和使用 Kerberos。最后经过修改 DBeaver 和 Kettle 启动脚本,从而成功访问带有 Kerberos 认证的 Hive原创 2020-07-07 19:10:05 · 5958 阅读 · 13 评论 -
基于 Docker 的几种常用 CentOS7 镜像
本文介绍了 Docker 的安装及使用,利用 Docker 构建几个开发测试中常用的 CentOS 镜像环境:基础纯净版、大数据开发环境版、 带数据库 (目前是MySQL) 版。中间又介绍了镜像的制作及如何上传到案例云镜像仓库,方便大家和自己在使用环境时快速拉取和下载原创 2020-07-07 19:01:17 · 25781 阅读 · 5 评论 -
Apache DolphinScheduler集群升级/安装(1.2.1 & 1.3.0)
主要对 Apache DolphinScheduler最近的几个版本进行了说明,方便大家选择需要的版本进行安装。同时有重点介绍了最新版本 Apache DolphinScheduler 1.2.1的集群方式的部署,包括全新方式的安装方式,和在旧版本 1.1.0 上的升级,以及中间需要注意的几个点。最后又更新了 DS 1.3.0 的升级安装。原创 2020-03-10 05:19:35 · 4027 阅读 · 4 评论 -
Beeline 的进阶使用
本文对Beeline做了较为详细的介绍,以及Beeline命令的参数和输出格式。接下来有分别介绍了使用 Beeline 连接本地或远程连接 Hive 、Impala 和 MySQL 的方式和命令。其中涉及到sql 语句的执行、sql 脚本的执行、交互式命令行的使用等,中间又介绍了在脚本化或者批量运行脚本时的 后台脚本执行的方式,每一种方式对参数都有详细的说明,并且配有示例。原创 2020-03-04 21:57:14 · 5931 阅读 · 2 评论 -
Ansible Quickstart
本文主要介绍了Ansible工具,它是一个是python 中的一套模块,系统中的一套自动化工具,只需要使用ssh协议连接及可用来系统管理、自动化执行命令等任务。通过这个工具我们能够实现很多的任务,比如自动化部署,脚本的远程提交执行,远程定时任务的设置,等等。原创 2019-11-11 15:00:01 · 544 阅读 · 0 评论 -
工作流任务调度系统:Apache DolphinScheduler
Apache DolphinScheduler(目前处在孵化阶段,原名为EasyScheduler)是一个分布式、去中心化、易扩展的可视化DAG工作流任务调度系统,其致力于解决数据处理流程中错综复杂的依赖关系,使调度系统在数据处理流程中开箱即用。本文对DolphinScheduler做了简要的概述,并详细讲解了其安装,通过简单的例子快速开始并使用。最重要的是Worker分组和数据源的添加,以及与Azkaban的对比。原创 2019-11-02 14:59:51 · 71867 阅读 · 62 评论 -
Phoenix的搭建和使用
Phoenix详细的信息可以查看: 官网 | apache/phoenix | DownloadCDH6中集成的HBase版本为2.1.0+cdh6.2.0 ,我们从官方的镜像资源下载列表中看到最新的CDH支持到cdh5.14.2的版本,这种版本的直接有一个parcels包,可以通过Cloudera Ma...原创 2019-07-17 06:03:07 · 2742 阅读 · 8 评论 -
DataX离线数据同步
本文主要介绍了常用的数据同步方案和使用的工具或平台,重点介绍了DataX,介绍了DataX的诸多便利之处,以及架构和DataX的调度流程。然后又介绍了DataX的各个数据源之间的离线数据同步,包括ODPS到HDFS、HDFS到HDFS、MongoDB到HDFS,以及CDH版本Impala支持的文件格式和DataX支持的格式差别,最后是MongoDB同步时带密码认证失败时的临时解决方案。最后针对于带有 Kerberos 认证的域外数据同步,讲解了配置及注意点。原创 2019-08-26 19:15:07 · 2307 阅读 · 0 评论 -
Azkaban的安装和使用
Azkaban是一个开源的工作流管理器,本文主要介绍了Azkaban的编译以及问题解决,Azkaban多Executor的安装和执行,中间包括MySQL数据库初始化设置、Executor服务端配置、Web端配置和用户权限配置等,最后执行一个小的测试项目查看Azkaban是否正常在执行服务端被调度执行。最终的是介绍了使用Azkaban指定节点的任务调度的几种方案:通过Azkaban指定、通过Expect脚本或shell方式指定、通过Ansible。原创 2019-08-22 16:04:21 · 2383 阅读 · 0 评论 -
打扮一下咱们的开发工具--更换IDEA主题
当我们安装一个新的IDEA工具时,第一次进入时会提示我们选择一个themes,但是只有两个风格,如下图我们可以选择自己喜欢的主题风格吗?当然是可以设置的啦。亲测按以下方式设置IntelliJ_IDEA 和PyCharm 都可以。 一、下载我们喜欢的主题这里推荐两个网站,这两个都可以下载。第一个是: http://color-themes.com/?view=in...原创 2018-06-09 04:29:35 · 77130 阅读 · 4 评论 -
Windows/Mac系统Docker方式安装Mysql(包含对中文字符集 utf8 的支持)
主要介绍了Docker在常用的桌面操作系统下的安装,主要是Mac系统和Window10系统,并且介绍了安装中的注意事项,以及出现的问题的解决方法。Docker安装完毕后,为了加速镜像的下载,又介绍了Docker如何配置阿里云镜像。最后我们又在安装好的Docker快速启动MySQL,并针对使用存在的 编码乱码问题进行解决,重新编写 Dockerfile,生成支持 utf8 的 mysql 镜像,并成功解决问题。原创 2020-12-25 17:02:38 · 3927 阅读 · 0 评论 -
Hive中的自定义分隔符(包含Hadoop和Hive详细安装)
导出到 HDFS 或者本地的数据文件,需要直接导入 Hive 时,有时包含特殊字符,按照给定的字段单字符分隔符或者默认换行分隔符,插入到 Hive 的数据可能不是我们预期的,此时需要我们自定义 Hive 的分隔符。同时Hive默认只支持单字符,如果需要支持多字符作为分隔符,可以按照如下方式重写输入格式化类来自定义分割符,也可以进行一些设置,并在建表时声明出来分割方式。下面会分别介绍这两种方式。在介绍之前先准备环境,介绍一下Hadoop和Hive的安装。原创 2019-04-04 15:34:34 · 3406 阅读 · 5 评论 -
项目中常用的Markdown语法
在Git上创建一个项目时基本都会提示创建一个README.md文件,比如使用GitLab创建一个项目时,在项目下面有如下命令提示:git clone git@my_git_hostname:root/项目名.gitcd testtouch README.mdgit add README.mdgit commit -m "add README"其中创建的README.md文件就是一个M...原创 2019-03-24 13:53:46 · 1116 阅读 · 0 评论 -
CDH之JDK 版本升级(Open JDK1.8)和cdh升级
本文主要接受了CDH 中 JDK 的升级,主要以Open JDK 为例。常见的 JDK 有 Oracle JDK、和 Open JDK,而常用到的 Open JDK有 Linux yum 原版的 Open JDK、Zulu JDK、GraalVM CE JDK。之后又介绍 CDH 的升级,以cdh 6.2.0 为例,升级到 6.3.1 ,这种方式也适用于行进的其它版本。原创 2019-06-12 16:52:13 · 3965 阅读 · 1 评论 -
CDH 6.2.0 或 6.3.0 安装实战及官方文档资料链接
本文主要根据多次的CDH安装和使用经验,总结了CDH 6.x(主要以CDH 6.2.0和CDH 6.3.0)版本为主。包括预期相关的各种环境的安装和应注意的事项,以及出现的问题的解决方法,比如NTP的安装、MySQL的安装、Host设置应注意的问题、分配给自己的机器root的密码在不允许更改的条件下如何安装、Open JDK版本问题、时区问题、旧环境清理问题(也适用于重装CDH),元数据库密码问题、MySQL驱动问题,等等。最后有介绍了 api 方式管理 CDH 集群,及 HBase 数据迁移备份及恢复原创 2019-06-17 02:16:48 · 16671 阅读 · 30 评论 -
Spring Cloud 项目中 Docker 的使用
本文主要详细介绍了Docker的安装和配置,包括Mac系统系的安装和使用、Linux系统下的安装和使用,以及Docker如何配置阿里的镜像。最后结合Spring Cloud的Eureka详细讲解了项目中如何发布到Docker,在容器中执行一个jar包项目,同时有将到了IDEA中远程连接Docker,并远程提交的方式。原创 2019-07-09 23:50:45 · 395 阅读 · 0 评论 -
Apache Griffin 5.0 编译安装和使用(包含依赖无法下载的问题解决)
前言安装 Apache griffin 最新版时,GitHub的 release 是一个源码包,需要下载下来后编译进行安装和配置,问题是编译的时候有些依赖在仓库中根本下载不到,导致编译失败,可以按照如下方法进行编译。1. 编译前准备环境中安装好如下插件GitMaven2. 下载源码访问GitHub,搜索 griffin ,第一个 apache/griffin 就是这个项目,可以...原创 2019-05-27 17:14:35 · 7263 阅读 · 68 评论 -
Ganglia系统监控的安装
一、简介Ganglia 由 gmond、gmetad 和 gweb 三部分组成gmond(Ganglia Monitoring Daemon)是一种轻量级服务,可以勉强比作传统监控系统中的“代理(agent)”软件。安装在每台需要收集指标数据的节点主机上。gmond 在每台主机上完成实际意义上的指标数据收集工作,并通过侦听/通告协议和集群内其他节点共享数据。使用 gmond,你可以很容易收集很多系...原创 2018-06-21 04:34:26 · 948 阅读 · 1 评论