0604-6.1.0-如何使用StreamSets实时采集指定数据目录文件并写入库Kudu

本文档详细介绍了如何使用 StreamSets 实时读取本地数据文件,并将内容写入 Kudu 数据库。首先,介绍了测试环境准备,包括创建 Kudu 表和准备测试数据。接着,展示了在 StreamSets 中创建 Pipeline 的步骤,配置 Directory 源、Kafka 中间件和 Kudu 目标,以及使用 JavaScript Evaluator 进行数据解析。最后,通过实际操作验证了数据采集和入库的正确性。
摘要由CSDN通过智能技术生成

Fayson的github: https://github.com/fayson/cdhproject

推荐关注微信公众号:“Hadoop实操”,ID:gh_c4c535955d0f

1 文档编写目的

Fayson在前面写过多篇StreamSets的文章,本篇文章主要介绍通过StreamSets实时的方式读取本地的数据文件,通过解析处理将文件中的内容写入到Kudu中。在进行本篇文章学习前你还需要了解:

《如何在CDH中安装和使用StreamSets》

  • 内容概述

1.测试环境准备

2.准备测试数据

3.配置StreamSets

4.流程测试及数据验证

  • 测试环境

1.RedHat7.4

2.CM和CDH版本为6.1.0

3.Kudu 1.8.0

2 测试环境准备

1.通过Hue使用Impala创建一个Kudu表,创建脚本如下:

CREATE TABLE user_info_kudu (
  id STRING COMPRESSION snappy,
  name STRING COMPRESSION snappy,
  sex STRING COMPRESSION snappy,
  city STRING COMPRESSION snappy,
  occupation STRING COMPRESSION snappy,
  mobile_phone_num STRING COMPRESSION snappy,
  fix_phone_num STRING COMPRESSION snappy,
  bank_name STRING COMPRESSION snappy,
  address STRING COMPRESSION snappy,
  marriage STRING COMPRESSION snappy,
  child_num INT COMPRESSION snappy,
  PRIMARY KEY (id)
)
  PARTITION BY HASH PARTITIONS 16
STORED AS KUDU
  TBLPROPERTIES ('kudu.master_addresses'='master,hadoop13'
);

在这里插入图片描述
在创建Kudu表的时候增加了kudu.master的配置参数,如果Impala中未集成kudu则需要增

  • 1
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值