【SDC】StreamSets实战之路-7-基础篇- StreamSets-Processor类组件使用

主要介绍StreamSets-Processor类组件有哪些、分类、主要用途以及使用方法。

Processor****类组件主要包含以下:

Base64 Field Decoder // base64 解码组件

Base64 Field Encoder // base64 编码组件

Control Hub API // Control Hub 接口调用组件

Couchbase Lookup // Couchbase查询组件,用于从Couchbase系统中读取数据

Data Generator // 数据序列化组件,将Avro、json、protobuf、text、xml等格式的数据序列成bytearray或string

Data Parser // 数据反序列化组件,将bytearray或string数据反序列成Avro、json、protobuf、text、xml等格式的数据

Databricks ML Evaluator // Databricks机器学习组件,使用Databricks机器模型进行数据分析

Delay // 延迟处理组件,用于数据延时处理

Encrypt and Decrypt Fields // 加解密组件,支持多种加解密算法

Expression Evaluator // 表达式组件,可用该组件添加或修改记录标题属性和字段属性

Field Flattener // 数据平铺组件,可以展平整个记录以生成没有嵌套字段的记录

Field Hasher // 哈希组件,可用于计算数据的哈希值,支持多种哈希算法

Field Mapper // 数据映射组件,可用于将表达式映射到一组字段,以更改字段路径,字段名称或字段值

Field Masker // 数据打码组件,可用于将敏感的数据进行打码

Field Merger // 数据合并组件,将List或Map类型的记录中的一个或多个字段合并到记录中的其他路径

Field Order // 数据排序组件,将List或Map类型的记录中的字段进行排序

Field Pivoter // 数据移位组件

Field Remover // 字段删除组件,用于保留或删除记录中的某些字段

Field Renamer // 重命名组件,用于重命名记录中字段的key

Field Replacer // 数据替换组件,用于填充或替换记录中的缺失值

Field Splitter // 字段切割组件,用于将数据按某一分隔符进行切割

Field Type Converter // 类型转化组件,用于数据的类型转化

Field Zip // 拉锁组件,用于将两个数组进行关联

Geo IP // Ip解析组件,用于将ip解析成对应的经纬度、地理信息等数据信息

Groovy Evaluator // Groovy脚本组件,用于自定义Groovy脚本,根据需求编写一些代码实现一个数据处理任务,功能强大

HBase Lookup // HBase 数据查询组件,用于从HBASE查询数据

Hive Metadata // Hive 元数据组件,与Hive Metastore目标以及Hadoop FS或MapR FS目标配合使用,作为Hive漂移同步解决方案的一部分

HTTP Client // Http 客户端组件,用于从http服务中获取获取数据

HTTP Router // Http 路由组件,根据http 请求方式(post put get)和请求路径进行分支路由

JavaScript Evaluator // JavaScript脚本组件,用于自定义JavaScript脚本,根据需求编写一些代码实现一个数据处理任务,功能强大

JDBC Lookup // JDBC 数据查询组件,用于JDBC从数据库中查询数据,适用于通过JDBC方式连接的数据库(Mysql等)的查询

JDBC Tee // JDBC Tee 组件,使用JDBC连接将数据写入MySQL或PostgreSQL数据库表,然后将生成的数据库列值传递给字段。使用JDBC Tee处理器将部分或全部记录字段写入数据库表,然后用其他数据丰富记录

JSON Generator // JSON 序列化组件,用于将数据记录序列化成JSON字符串

JSON Parser // JSON 反序列化组件,用于将JSON字符串数据反序列化成Java对象数据

Jython Evaluator // Jython脚本组件,用于自定义Jython脚本,根据需求编写一些代码实现一个数据处理任务,功能强大

Kudu Lookup // Kudu 查询组件,用于从Kudu 系统中读取数据

Log Parser // 日志解析组件,支持多种日志格式的的解析,用于将具有一定格式的日志数据,解析成系统平台可处理的结构化格式数据

MLeap Evaluator // MLeap 数据分析组件,使用存储在MLeap捆绑软件中的机器学习模型来生成评估,评分或数据分类

MongoDB Lookup // MongoDB 数据查询组件,用于从MongoDB中查询数据

PMML Evaluator // PMML数据分析组件,使用以预测模型标记语言(PMML)格式存储的机器学习模型来生成数据的预测或分类

PostgreSQL Metadata //PostgreSQL元数据组件,确定其中每个记录应写入PostgreSQL的表,记录结构对表结构进行比较,然后根据需要创建或改变的表

Record Deduplicator // 记录重复数据删除组件,评估记录中是否有重复数据,并将数据路由到两个流中-一个流用于唯一记录,一个流用于重复记录。使用记录重复数据删除器丢弃重复数据或通过不同的处理逻辑路由重复数据

Redis Lookup // Redis数据查询组件,用于从Redis中查询数据

Salesforce Lookup // Salesforce数据查询组件,用于从Salesforce中查询数据

Schema Generator // Schema 生成组件,基于记录的结构生成模式,并将该模式写入记录头属性。用于生成Avro Schema

Spark Evaluator // spark 数据处理组件,用于将平台与spark关联实现数据处理的分布式处理

SQL Parser // SQL 解析组件

Start Job // 作业启动组件,需要与Controler Hub 配合使用

Start Pipeline // 数据流启动组件,用于启动指定的数据流

Static Lookup // 静态数据查询组件,执行存储在本地内存中的键/值对的查找,并将查找值传递给字段。使用静态查找将字符串值存储在内存中,管道可以在运行时查找这些值,以用其他数据丰富记录

Stream Selector // 数据分选组件,用于通过设置条件,来将数据分选不同分支进行处理

TensorFlow Evaluator // TensorFlow 数据分析组件,通过TensorFlow训练的数据模型,并模型配置到指定目录下,在系统平台上使用,实现数据分析功能

Whole File Transformer // 全文件转换组件,用于全文件目录或文件的快速拷贝或转换

Windowing Aggregator // 窗口聚合组件,用于指定一定窗口大小实现窗口内部数据的聚合操作,支持滚动和滑动窗口

XML Flattener // XML 平铺组件,用于XML数据的展平,可以展平整个记录以生成没有嵌套字段的记录

XML Parser // XML 解析组件,用于将XML数据进行解析,转换成系统平台易处理的数据格式,类似JSON Parser

使用方法:

Streamsets实战之路正在更新中,尽情期待!!!

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
StreamSets是一种开源的数据操作平台,用于构建、执行和监视数据流。要安装和配置StreamSets,可以按照以下步骤进行操作: 1. 下载StreamSets:可以在官方网站上下载最新版本的StreamSets。选择适合您操作系统的版本,并将其下载到本地。 2. 安装StreamSets:解压下载的文件,并将其安装到您选择的目录中。例如,您可以将其解压到/opt目录下。 3. 配置StreamSets:打开解压后的StreamSets文件夹,并编辑配置文件。配置文件通常位于conf文件夹中,其中最重要的是sdc.properties和sdc-log4j.properties。您可以根据您的需求配置这些文件,例如指定日志文件的路径、端口号等。 4. 启动StreamSets:使用命令行进入StreamSets的安装目录,并运行启动脚本。例如,可以运行./streamsets dc启动StreamSets。 5. 访问StreamSets:一旦StreamSets成功启动,您可以通过在浏览器中输入http://localhost:18630来访问StreamSets的用户界面。请确保防火墙没有阻止该端口的访问。 6. 配置数据源和目标:在StreamSets的用户界面中,您可以通过添加、配置数据源和目标来定义您的数据流。可以根据您的需求选择不同的数据源和目标,例如MySQL、Hadoop等。 7. 构建数据流:使用StreamSets的可视化界面,您可以构建数据流。您可以将不同的数据源连接到不同的目标,定义数据的处理方式,并配置数据传输的频率等。 8. 运行数据流:一旦您构建好数据流,您可以选择运行它。StreamSets将根据您的配置从数据源中读取数据,并将其传输到目标中。您可以监视运行状态,查看数据处理的日志等。 总之,StreamSets的安装和配置包括下载、安装、编辑配置文件、启动和访问StreamSets、配置数据源和目标、构建和运行数据流等步骤。这些步骤可以帮助您开始使用StreamSets来处理和传输数据。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值