自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(103)
  • 资源 (2)
  • 收藏
  • 关注

原创 PutHiveStreaming

描述: 该处理器使用Hive流将流文件数据发送到Apache Hive表。传入的流文件需要是Avro格式,表必须存在于Hive中。有关Hive表的需求(格式、分区等),请参阅Hive文档。分区值是根据处理器中指定的分区列的名称,然后从Avro记录中提取的。注意:如果为这个处理器配置了多个并发任务,那么一个线程在任何时候只能写入一个表。写入同一表的其他任务将等待当前任务完成对表的写...

2019-04-10 14:38:13 1220 2

转载 Hive AVRO数据存储格式

Avro(读音类似于[ævrə])是Hadoop的一个子项目,由Hadoop的创始人Doug Cutting(也是Lucene,Nutch等项目的创始人,膜拜)牵头开发,当前最新版本1.3.3。Avro是一个数据序列化系统,设计用于支持大批量数据交换的应用。它的主要特点有:支持二进制序列化方式,可以便捷,快速地处理大量数据;动态语言友好,Avro提供的机制使动态语言可以方便地处理Avro数据。...

2019-04-09 13:39:40 4030

原创 Apache NIFI ExecuteGroovyScript

描述: 实验性的扩展Groovy脚本处理器。脚本负责处理传入的流文件以及任何脚本创建的流文件(例如,转移到成功或删除)。如果处理不完整或不正确,会话将回滚。属性配置: 在下面的列表中,必需属性的名称以粗体显示。任何其他属性(不是粗体)都被认为是可选的,并且指出属性默认值(如果有默认值),以及属性是否支持表达式语言。 属性名称 默认值...

2019-04-08 19:54:49 1576

原创 Apache NIFI DistributeLoad

描述: 该处理器根据分发策略将流文件分发给下游处理器。如果使用循环策略,默认情况下为每个目的地分配1个权重(均匀分布)。当然,权重与 relationship都是灵活可配的,比如自定义 属性名‘5’,值‘2’,那么relationship为‘5’的权重为2。属性配置: 在下面的列表中,必需属性的名称以粗体显示。任何其他属性(不是粗体)都被认为是可选的,并且指出属性默...

2019-04-08 10:58:36 499

原创 Apache NIFI UpdateAttribute

描述: 该处理器使用属性表达式语言更新流文件的属性,并且/或则基于正则表达式删除属性属性配置: 在下面的列表中,必需属性的名称以粗体显示。任何其他属性(不是粗体)都被认为是可选的,并且指出属性默认值(如果有默认值),以及属性是否支持表达式语言。 属性名称 默认值 可选值 描述 D...

2019-04-05 00:05:04 3707 5

原创 Apache NIFI LogAttribute

描述: 该处理器流属性输出到日志中。属性配置: 在下面的列表中,必需属性的名称以粗体显示。任何其他属性(不是粗体)都被认为是可选的,并且指出属性默认值(如果有默认值),以及属性是否支持表达式语言。 属性名称 默认值 可选值 描述 Log Level info ...

2019-04-04 22:26:31 1735

原创 Apache NIFI ConvertJSONToAvro

描述: 该处理器根据Avro schema将JSON转换为Avro。属性配置: 在下面的列表中,必需属性的名称以粗体显示。任何其他属性(不是粗体)都被认为是可选的,并且指出属性默认值(如果有默认值),以及属性是否支持表达式语言。 属性名称 默认值 可选值 描述 Hadoop co...

2019-04-04 20:22:39 1831

原创 NIFI Processors,流程归类 汇总

以本博客内已整理出的processor ,流程 为主,稍后有时间会再做整理1:HTTP 相关InvokeHTTP 做HTTP请求https://blog.csdn.net/weixin_36048246/article/details/88895123HandleHttpRequest、HandleHttpResponse 做NIFI web服务https://...

2019-04-04 15:29:49 1504

原创 ScanHbase jsonJolt转换

[ { "operation": "shift", "spec": { "*": { "cells": { "*": { "@val": "[&3].@qual" } } } } }]...

2019-04-04 10:25:18 267

转载 Linux系统下安装rz/sz命令及使用说明

1)编译安装root 账号登陆后,依次执行以下命令:cd /tmpwget http://www.ohse.de/uwe/releases/lrzsz-0.12.20.tar.gztar zxvf lrzsz-0.12.20.tar.gz && cd lrzsz-0.12.20./configure && make && make inst...

2019-04-01 09:24:26 94

转载 死磕Synchronized底层实现

转自:farmerjohngit文章链接https://github.com/farmerjohngit/myblog/issues/12关于synchronized的底层实现,网上有很多文章了。但是很多文章要么作者根本没看代码,仅仅是根据网上其他文章总结、照搬而成,难免有些错误;要么很多点都是一笔带过,对于为什么这样实现没有一个说法,让像我这样的读者意犹未尽。本系列文章将...

2019-03-30 16:21:43 163

原创 CentOS 7.4 安装 Ambari 2.6.0 + HDP 2.6.3 搭建Hadoop集群

1.安装环境说明三台机器安装好CentOS-7-x86_64-Minimal-1708.iso下载地址:https://www.centos.org/download/最好在安装时设置好IP和HOSTNAME三台机器的IP和HOSTNAME下载如下主 192.168.31.11 SY-001.hadoop从 192.168.31.12 SY-002.hadoop从...

2019-03-30 14:49:57 379

转载 虚拟机下CentOS7开启SSH连接

在虚拟机(Vmware Workstation)下,安装了CentOS7,现在想通过SSH工具连接虚拟机中的CentOS71、首先,要确保CentOS7安装了 openssh-server,在终端中输入 yum list installed | grep openssh-server此处显示已经安装了 openssh-server,如果又没任何输出显示表示没有安装 op...

2019-03-30 11:22:11 136

转载 虚拟机下Linux系统配置静态IP地址

1.虚拟机的网络模式1.1 桥接模式 桥接模式就是将主机网卡与虚拟机虚拟的网卡利用虚拟网桥进行通信。类似于把物理主机虚拟为一个交换机,相互可以访问而不干扰。在桥接模式下,虚拟机ip地址需要与主机在同一个网段,如果需要联网,则网关与DNS需要与主机网卡一致。1.2NAT(地址转换模式) 在NAT模式中,主机网卡直接与虚拟NAT设备相连,利用虚拟的NAT设备以及虚拟D...

2019-03-30 11:05:05 2308 1

原创 Apache NIFI InvokeHTTP

描述: 该处理器用于执行HTTP请求。目标URL和HTTP方法是可配置的。流文件属性可以被转换为HTTP头文件,流文件内容被包含为请求的主体(前提如果使用HTTP PUT、POST或PATCH方法)。属性配置: 在下面的列表中,必需属性的名称以粗体显示。任何其他属性(不是粗体)都被认为是可选的,并且指出属性默认值(如果有默认值),以及属性是否支持表达式语言。除此之...

2019-03-29 15:52:34 5149

原创 Apache NIFI RouteOnAttribute

描述: 该处理器使用属性表达式语言,根据流文件的属性去计算然后进行路由。属性配置: 在下面的列表中,必需属性的名称以粗体显示。任何其他属性(不是粗体)都被认为是可选的,并且指出属性默认值(如果有默认值),以及属性是否支持表达式语言。 属性名称 默认值 可选值 描述 Routing...

2019-03-26 15:46:42 2578

原创 Apache NIFI EvaluateJsonPath

描述: 该处理器根据流文件的内容计算一个或多个JsonPath表达式。这些表达式的结果被写入到FlowFile属性,或者写入到FlowFile本身的内容中,这取决于处理器的配置。通过添加用户自定义的属性来输入jsonpath,添加的属性的名称映射到输出流中的属性名称(如果目标是flowfile-attribute;否则,属性名将被忽略)。属性的值必须是有效的JsonPath表达式...

2019-03-26 15:21:03 4209

原创 Apache NIFI ReplaceText

描述: 使用其他值替换匹配正则表达式的流文件部分内容,从而更新流文件的内容。属性配置: 在下面的列表中,必需属性的名称以粗体显示。任何其他属性(不是粗体)都被认为是可选的,并且指出属性默认值(如果有默认值),以及属性是否支持表达式语言。 属性名称 默认值 可选值 描述 Searc...

2019-03-26 14:51:13 3194

转载 在Windows环境中安装Neo4j

图形数据库(Graph Database)是NoSQL数据库家族中特殊的存在,用于存储丰富的关系数据,Neo4j 是目前最流行的图形数据库,支持完整的事务,在属性图中,图是由顶点(Vertex),边(Edge)和属性(Property)组成的,顶点和边都可以设置属性,顶点也称作节点,边也称作关系,每个节点和关系都可以由一个或多个属性。Neo4j创建的图是用顶点和边构建一个有向图,其查询语言cyph...

2019-03-26 10:16:50 177

原创 Apache NIFI HandleHttpRequest、HandleHttpResponse配置教程

一、HandleHttpRequest描述: HandleHttpRequest该处理器启动HTTP服务器并侦听HTTP请求。对于每个请求,创建一个流文件并传输到“success”。此处理器需要与HandleHttpResponse处理器一起使用,以便创建Web服务。属性配置: 在下面的列表中,必需属性的名称以粗体显示。任何其他属性(不是粗体)都被认为是可选的...

2019-03-25 11:14:23 3537

原创 Apache NIFI RouteOnContent

描述: 该处理器使用正则表达式去匹配流文件的内容,并将流文件路由到正则表达式所匹配的relation。在用户自定义的属性上添加正则表达式,其中属性的名称是关系的名称,值是一个正则表达式,用于匹配流文件内容。用户定义的属性支持属性表达式语言,但是表达式计算的结果被解释为文字值,而不是正则表达式。属性配置: 在下面的列表中,必需属性的名称以粗体显示。任何其他属性(不是粗...

2019-03-22 14:02:06 1789

原创 Apache NIFI LogMessage

描述: 该处理器发出指定日志级别的日志消息。属性配置: 在下面的列表中,必需属性的名称以粗体显示。任何其他属性(不是粗体)都被认为是可选的,并且指出属性默认值(如果有默认值),以及属性是否支持表达式语言。 属性名称 默认值 可选值 描述 Log Level info ...

2019-03-22 13:28:04 2281

原创 Apache NIFI CryptographicHashAttribute

描述: 该处理器使用给定算法计算每个指定属性的哈希值,并将其写入到输出属性。请参考https://csrc.nist.gov/Projects/Hash-Functions/NIST-Policy-on-Hash-Functions来决定使用哪种算法。属性配置: 在下面的列表中,必需属性的名称以粗体显示。任何其他属性(不是粗体)都被认为是可选的,并且指出属性默认值(...

2019-03-22 10:11:06 478

原创 NIFI 设计流程总结

细水流从,慢慢总结1:越简单,越高效 核心流程设计一定要简单直接,NIFI每个Processor之间都有数据落地,如果说你的流程设计复杂,而流经这复杂逻辑流程的数据量又很大,那你的数据流会慢,你的NIFI资源占用会高,环境也会不稳定。2:大数据流经NIFI,流速要快,处理时间要短 有时候没办法,有很大的数据需要流经NIFI,那么流程设计上要尽量让数据快速流过...

2019-03-12 14:00:43 1147

原创 Apache NIFI SplitJson

描述: 该处理器使用JsonPath表达式指定需要的数组元素,将JSON数组分割为多个单独的流文件。每个生成的流文件都由指定数组的一个元素组成,并传输到关系“split”,原始文件传输到关系“original”。如果没有找到指定的JsonPath,或者没有对数组元素求值,则将原始文件路由到“failure”,不会生成任何文件。 该处理器需要使用人员掌握JsonPath表...

2019-03-12 11:33:32 5562 5

转载 数据库 与 数据仓库的本质区别是什么?

毕业这一年多,听着数仓,数仓的,总是在纳闷 数仓不也是放在数据库里的嘛??下面在知乎上列举的一个例子(https://www.zhihu.com/question/20623931/answer/139842331 作者:陈诚),让我明白了数据库:传统的关系型数据库的主要应用,主要是基本的、日常的事务处理,例如银行交易。数据仓库:数据仓库系统的主要应用主要是OLAP(On-Line ...

2019-03-05 11:18:26 311

原创 GP模式设计

Greenplum数据库是一种分析型的shared-nothing数据库,它和高度规范化的事务型SMP数据库有很大不同。Greenplum数据库使用非规范化的模式设计会工作得最好,非规范化的模式适合于MPP分析型处理,例如带有大型事实表和较小维度表的星形模式或者雪花模式。数据类型一致地使用类型 为表间连接中用到的列使用相同的数据类型。如果数据类型不同,Gre...

2019-03-04 17:13:26 895

原创 GP开源与商业的一些特性区别

Pivotal Greenplum 商业Greenplum 开源产生Pivotal Greenplum数据库二进制安装包的代码不包括在开源Greenplum数据库的仓库中。 Greenplum数据库不包括EMC DD Boost集成。只有当Data Domain系统被挂在为在Greenplum主机上共享的NFS时才支持备份到EMC Data Domain appliance。 ...

2019-03-04 10:58:04 1625

原创 NIFI 日志收集埋点

看很多朋友都有需求说怎么收集NIFI日志,这是之前自己的日志收集埋点;NIFI 的processor Service 等等日志都经过SimpleProcessLogger 类,直接贴代码,看注释应该很清晰;package org.apache.nifi.processor;import com.yonyou.datacollect.util.NiFiDataCollectUti...

2019-03-03 23:08:01 2631

原创 GP查杀进程

select * from pg_stat_activity where client_addr = '';SELECT pg_terminate_backend(29606) FROM pg_stat_activity

2019-03-02 22:07:06 630

原创 GreenPlum查看表字段类型

Select column_name,data_type from information_schema.columns where table_schema='zs_dw_corp_sc' and table_name='dw_capi_allotment';

2019-03-02 11:21:08 3737

原创 validationQuery

数据库 validationQuery Oracle select 1 from dual MySQL select 1 Microsoft SQL Server select 1 DB2 select 1 from sysibm.sysdummy1 SQLite select 1 HSQLDB select 1 from I...

2019-03-01 13:11:06 1219

转载 Greenplum上手报告

简介Greenplum应用在OLAP领域,MPP架构,其底层使用Postgre,支持横向扩展,支持行存储、列存储,支持事务、ACID。MPP数据库主打share nothing,即各节点间任何资源都不共享,从硬件的CPU/内存/网络/存储,到上层的操作系统,各节点都是独立的;节点间的交互主要通过网络进行通信。由于数据量越来越大,OLAP产品多采用MPP架构,例如阿里的ADS,百度的Palo...

2019-02-27 15:03:15 406

转载 GreenPlum数据加载

1. copy命令  对于数据加载,GreenPlum数据库提供copy工具,copy工具源于PostgreSQL数据库,copy命令支持文件与表之间的数据加载和表对文件的数据卸载。使用copy命令进行数据加载,数据需要经过Master节点分发到Segment节点,同样使用copy命令进行数据卸载,数据也需要由Segment发送到Master节点,由Master节点汇总后再写入外部文件,这样就...

2019-02-27 09:54:11 694

原创 GP datetype

  Name Alias Size Range Description bigint int8 8 bytes -922337203​6854775808 to 922337203​6854775807 ...

2019-02-26 18:25:02 299

原创 测试GP HDFS外部表及数据装载流程

前言:GP insert,copy 实际是要先走master,再分发至各个segment,占用master各种资源,segment资源又未充分利用,关键是速度又慢;GP的正确玩法应该是 外部表/gpfdist ,直接用segment装载数据。建立外部表,location到指定的hdfs位置注意:表字段类型与schema信息需要一致 CREATE EXTERNAL TABLE pu...

2019-02-26 18:18:19 866

原创 ExtractText

描述: 该处理器使用正则表达式,匹配流文件中的内容,并将匹配成功的内容输出到属性中;如果正则匹配到多个结果,默认只取第一个结果;匹配成功则流文件路由matched,没有匹配则到unmatched;属性配置: 在下面的列表中,必需属性的名称以粗体显示。任何其他属性(不是粗体)都被认为是可选的,并且指出属性默认值(如果有默认值),以及属性是否支持表达式语言。 ...

2019-02-25 14:06:57 2283

原创 crontab

*       *       *       *      *      command分  时  日  月  周  命令第1列表示分钟1~59 每分钟用*或者 */1表示第2列表示小时1~23(0表示0点)第3列表示日期1~31第4列表示月份1~12第5列标识号星期0~6(0表示星期天)第6列要运行的命令 crontab文件的一些例子:#每晚的21:30...

2019-02-25 13:19:48 517

原创 JSONPath语法元素,XPath元素

XPath JSONPath Description / $ 表示根元素 . @  当前元素 / . or [] 子元素 .. n/a 父元素 // .. 递归下降,JSONPath是从E4X借鉴的。 * * 通配符,表示所有的元素 @ n/a  属性访问字符 [] ...

2019-02-18 14:20:25 1002

原创 Apache NIFI GenerateFlowFile

描述: 该处理器使用随机数据或自定义内容创建流文件。GenerateFlowFile用于负载测试、配置和仿真。属性配置: 在下面的列表中,必需属性的名称以粗体显示。任何其他属性(不是粗体)都被认为是可选的,并且指出属性默认值(如果有默认值),以及属性是否支持表达式语言。 属性名称 默认值 可选值 ...

2019-02-16 13:18:41 2021

wechat-0.0.1-SNAPSHOT.jar

微信预警小工具,源代码github地址:https://github.com/nifichina/WechatAlarm 其中有详细的配置说明

2019-07-05

Replacewithmapping模板例子

NIFI Processors 的Replacewithmapping的简单模板。

2019-02-14

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除