![](https://img-blog.csdnimg.cn/20201014180756927.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
大数据
if200
开发
展开
-
一文流:hive使用 bulk load 批量导入数据到 hbase
本文主要参考了hbase和hive官方文档的说明,并结合cdh和hdp的一些教程以及个人在生产中的实践进行记录。主要内容有hbase bulkload的原理以及对应hive的操作步骤,最后基于cdh进行完整实验提供参考实例。实验环境为:CDH6.3.2,对应的各个组件版本为:hadoop3.0.0,hbase2.1.0,hive2.1.1文章目录一 hbase bulk loading批量加载 原理1 概述2 批量加载架构1. 通过MapReduce作业准备数据2. 完成数据加载二 hive 操作步骤1原创 2020-11-23 22:49:02 · 2134 阅读 · 0 评论 -
hive编写udf实践记录
官方教程:https://cwiki.apache.org/confluence/display/Hive/HivePlugins简单使用查看上面官方的文档即可。这里记录一下我使用的实践和一点注意事项。文章目录一 编写udfgradle配置UDF类打jar包二 创建function1 创建临时function2 创建永久function一 编写udf这里的需求是写一个udf,用于将经纬度转换成geohash。参数有 经纬度和geohash的精度。gradle配置gradle 部分配置如下:de原创 2020-11-10 23:47:22 · 789 阅读 · 0 评论 -
HBCK2修复RIT实践笔记
本文记录了作者使用HBCK2工具对线上HBase发生RIT状态的处理原创 2020-04-16 01:40:39 · 1193 阅读 · 0 评论 -
CDH客户端环境搭建
最近遇到一个需求:要使用azkaban对接客户的CDH集群,CDH用的是oozie,azkaban只能部署在我们客户端的机器上,所以需要在客户机上手动搭建CDH的hadoop环境。操作很简单,过程比较麻烦,这里记录一下。文章目录一 获取所需CDH rpm包1. 搭建本地CDH package仓库2. 使用 yumdownloader 获取rpm包二 安装CDH rpm包三 配置CDH 环境1. 配置环境变量2. 添加配置文件四 验证1. hdfs2. yarn3. hbase4. hive5. spark原创 2020-11-10 21:51:20 · 908 阅读 · 1 评论 -
kafka单机部署(含SASL认证)
适用于搭建zookeeper+kafka本地测试环境,使用密码认证,并给出相关shell测试例子。文章目录一 下载安装二 zookeeper1. 配置2. 启动三 kafka1. 配置1. 修改server.properties2. 添加 kafka_jaas.conf 文件2. 启动四 测试0. 编写连接配置文件kafka_client.properties1. 创建topic2. 浏览topic3. producer4. consumer5. 查看consumer group列表一 下载安装直接去原创 2020-11-10 00:53:58 · 1032 阅读 · 1 评论 -
hdfs-ftp-server:基于hdfs的ftp服务器的设计与技术实现
项目基于hdfs-over-ftp进行升级改造,支持hadoop2.9.2,支持高可用连接及kerberos认证,并提供docker镜像,开箱即用,适用于生产环境。本文主要对项目的设计和实现思路进行记录。具体代码和使用方法可直接到GitHub:https://github.com/linshenkx/hdfs-ftp-server 和DockerHub:https://hub.docker.com/r/linshen/hdfs-ftp-server一 设计1 参考项目主要参考了 https://gi原创 2020-09-14 00:27:09 · 956 阅读 · 2 评论 -
kafka动态调整副本因子replication.factor及json生成脚本
kafka默认的副本因子default.replication.factor是1,即无额外副本,如果在创建topic时没有指定副本数,则无高可用性。该参数在topic创建时生效,topic创建后无法直接对topic级别的副本数进行修改,但官方提供了在partition级别增加副本数的功能,用于集群添加节点的情况。详情参考官方文档:https://kafka.apache.org/documentation/#basic_ops_increase_replication_factor简单来说就是使用js原创 2020-08-19 09:54:58 · 3312 阅读 · 0 评论