添柴程序猿
10年编程工作,涉及到.Net,Java,Android,C,Python等,爱好算法,人工智能,大数据等领域, 虚心求教,一起进步,大学毕业参加工作,如今一晃10多年已过,时间飞逝....
展开
-
大数据平台集群部署报错_hostname修改不重启导致_hbase无法启动_8080端口和zookeeper占用的8080端口冲突_jar包启动很慢_记录027---大数据工作笔记0187
在部署大数据平台hbase集群的时候,本次发现两个问题,需要记录,以后部署的是,要注意.1.由于系统修改了hostname. vim /etc/hosts 文件.这里原来是host5 改成了hadoop2531,这种情况下要注意.必须重启,如果不重启,那么,hbase集群,启动的时候就会报错,找不到对应的地址了就.一定要保证:这里变成了,对应设置的主机名以后,再去配置启动hbase.2.上面的问题解决以后,启动zookeeper集群,然后启动zookeeper集群以后,然后再去启动hbase,发现也启动不起原创 2024-08-17 14:51:27 · 80 阅读 · 0 评论 -
使用NIFI连接瀚高数据库_并从RestFul的HTTP接口中获取数据局_同步到瀚高数据库中---大数据之Nifi工作笔记0067
请求,可以看到这个时候就需要首先,在上层,去连接一个GenerateFlowFile这个处理器,数据从这里流过以后,估计还是有问题,应该是CustomText,写入了json,然后需要用表达式提取里面的内容把,后面有了进展会写在这里。然后还可以用InvokeHTTP处理器来进行,获取get或者post,或者put,或者delete。其实,只要配置好了链接的,连接字符串,和驱动,任何支持JDBC的数据库都可以连接的.然后,去更新值,继续获取数据,是这个思路,后面实现了会补充上.原创 2024-07-16 10:04:08 · 234 阅读 · 0 评论 -
纯手动搭建大数据集群架构_记录024_集群共享大数据盘挂载挂盘_三台机器共享大数据盘的不同文件夹_麒麟v10_arm架构_开启系统联网---大数据之Hadoop3.x工作笔记0184
我们是在dashujupan04目录下,创建了hadoop目录,然后下面又创建了hadoop158目录,我们把这个目录挂载到本机的/data目录上。上节说了,大数据部署的时候,对方提供了三台机器,但是三台机器自身的系统盘都非常小,没办法在上面安装,我们的软件和中间件.这样就可以了,这样就相当于,我们三台机器,每台机器中都有个data目录,然后这个data目录,其实是对应着,同一块硬盘.然后我们再来看看,如果我们的机器,不能联网的话,有可能是本身系统是可以联网的。可以看到,这样就可以了。所以我们去配置一下.原创 2024-06-13 16:39:32 · 45 阅读 · 0 评论 -
纯手动搭建大数据集群架构_记录022_麒麟系统v10_ARM架构集群搭建01_ARM架构jdk安装_集群架构_NameNode is stilling---大数据之Hadoop3.x工作笔记0182
最近客户给了个集群,三台机器,但是,却是ARM架构的,第一次安装arm架构的机器,对于软件,有一定的要求,这个过程中,主要是.我打算把,hadoop,每个机器,安装到对应的文件夹中去.那么这个时候,配置hadoop的etc/hadoop文件夹中的。这个位置,其实就是安装的openjdk. 这里要注意openjdk是有问题的, 他默认安装上了,但是没有清晰的指定。并且要指出的是,这三台机器,自身的硬盘都很小,只有一块9.8T的盘,但是这三台机器都挂到这个盘上面去了。原创 2024-06-12 16:47:48 · 184 阅读 · 0 评论 -
使用Datax自定义采集组件Reader/Writer实现国产数据库支持以及_Datax数据清洗/过滤规则功能自定义---大数据之DataX工作笔记007
我们基于datax来做的自己的数据采集系统,现在基本的数据采集已经实现了,也就是调用datax的数据采集能力,实现在已支持的数据库之间同步数据.我们是基于datax-web实现的,里面都有开源的代码了,可以分析以后拿过来用,这个过程并不复杂,而且,结合xxljob的web那个开源项目,也可以让datax和定时任务结合起来,思路是这样的,而且实现也不复杂,小同事去做的就搞定了.然后再去使用的时候,记得,在之前的datax脚本中,添加上,上面的脚本就可以了。在这个文件中,可以看到这里进行了初始化的操作,原创 2024-04-08 13:52:05 · 553 阅读 · 0 评论 -
Hbase-2.4.11_hadoop-3.1.3集群_大数据集群_SSH修改默认端口22为其他端口---记录025_大数据工作笔记0185
在以下目录中:/opt/module/hadoop-3.1.3/bin/myhadoop.sh。需要修改/opt/module/hbase-2.4.11/conf/hbase-env.sh。在以下目录中:/opt/module/hadoop-3.1.3/bin/kfk.sh。在以下目录中:/opt/module/hadoop-3.1.3/bin/xsync。在以下目录中:/opt/module/hadoop-3.1.3/bin/zk.sh。中,找到对应的hadoop-env.sh文件。原创 2024-01-29 18:40:23 · 566 阅读 · 0 评论 -
phoenix启动失败_The history file `/root/.sqlline/history` may be an older history---记录024_大数据工作笔记0184
可以看到我们执行phoenix-hbase-2.4.5-5.1.2/bin/sqlline.py hadoop15,hadoop16,hadoop17:2181。报错了,说对应的/root/.sqlline/history这个文件存在,让我们删除。我们进入到root目录,执行删除 rm -rf .sqlline/quit来退出phoenix,退出以后,然后。然后我们再去执行,可以看到现在可以了,正常了。可以看到详细错误内容。原创 2023-12-11 22:45:05 · 131 阅读 · 0 评论 -
IceBerg数据湖_简介002_对比IceBerg和Hive_hive元数据查询慢导致iceberg的产生---大数据之_数据湖框架Apache Iceberg工作笔记0002
因为我们知道hive支持数据的分区,分区其实就是一个个的目录对吧,对应他在hdfs上的一个个的目录,比如我们要以一个小时为一个分区,那么,一天就有24个分区,也就是在hdfs上有24个目录,然后,如果一个月,一年呢?如果比如从mysql中我知道了我的数据在哪个目录了,下一步,就是从hdfs中,比如有8000个分区,就要从这8000个目录中一个个去扫描,去对比找到对应的分区,然后再去查找数据,速度很慢,因为这个问题,才自己要做iceberg。这样就大大提高了数据查询速度。原创 2023-10-08 20:22:50 · 196 阅读 · 0 评论 -
NIFI集群_内存溢出_CPU占用100%修复_GC overhead limit exceeded_NIFI: out of memory error ---大数据之Nifi工作笔记0017
java - Apache NiFi - OutOfMemory 错误 : GC overhead limit exceeded on SplitText processor。只要把队列设置的小一点,然后背压设置的个数,小一点,因为默认是10000个flowfile,然后。这个队列的设置太大了,所以需要设置,比如允许10个文件,1MB这样,这样就可以了,就不会出现。在使用nifi的时候出现,内存溢出的情况,会频繁出现内存溢出的情况.这种情况网上有很多种说法,其实有效的解决方法是设置背压,原创 2023-09-17 21:28:56 · 356 阅读 · 0 评论 -
Centos7.9下安装DataX3.0/2.0_详细安装过程_以及踩坑._drdsreader/plugin.json]不存在.检查您的配置文---大数据之DataX工作笔记001
您提供的配置文件[/opt/module/datax/plugin/reader/._drdsreader/plugin.json]不存在. 请检查您的配置文件。这样一执行可以看到再去看比如/opt/module/datax/plugin下面的reader文件夹和writer文件夹中就,都没有._开头的文件了都被删除掉了。首先我们执行 rm -rf /opt/module/datax/plugin/*/._*这个时候,我们去对应的plugin文件夹,把所有的._开头的文件都删除掉就可以了。原创 2023-06-29 11:31:56 · 384 阅读 · 0 评论 -
使用phoenix来编写sql来查询某个表的表结构---大数据之Hbase工作笔记0038
这种常用的东西在百度上搜了一下竟然搜不到...大大的不好啊..应该很常用啊.记录一下吧。奉上了,就是这个sql语句可以用来查询,某个表的表结构,原创 2023-06-01 15:15:50 · 471 阅读 · 0 评论 -
ClickHouse介绍_安装_准备工作_单机安装---大数据之ClickHouse数据库002
soft就是平时用的,类似于设置了一个值平时用这个数,然后hard是最大数,也就是比如文件数最大只能开hard的个数,然后类似数据库连接池,初始化是多少个连接,然后最大是多少个连接 就是这个意思。这里要知道安装以后他放到了/etc/clickhouse-client /etc/clickhouse-server。然后注意这里安装跟其他的不一样,其他的一般是解压tar.gz文件夹,放到某个位置,里面有bin。注意安装集群这里没有说,需要的话可以查一下,安装的话也是跟上面的安装单机差不多,但是。原创 2023-05-19 14:40:52 · 481 阅读 · 0 评论 -
ClickHouse介绍_特点_速度超快_数据分区_线程级并行_QPS相对低_LSM Tree_高吞吐写入能力_多样化引擎_适合对大数据宽表查询---大数据之ClickHouse数据库001
然后我们来看一下这个clickhouse他的更新的步骤,跟hbase类似,可以看到其实对于同一条数据他可能有多条,他有老的数据,有旧的数据,那么他们之间不一定是通过时间戳来进行区分,他还有几个标记,比如,有个版本号,这个版本号,大的就是最新的数据。然后再来看,他的数据分区,为了避免全表扫描,然后线程级并行,表示一个sql查询的sql,就可以占用整个cpu执行....快是很快,但是如果同时来了很多sql的话,他的并发能力,qps就没那么高了.这里clickhouse,做join的操作比较慢的原因是因为,原创 2023-05-19 13:47:22 · 148 阅读 · 0 评论 -
NIFI同步MySql数据源数据_到原始库hbase_同时对数据进行实时分析处理_同步到清洗库_实际操作06---大数据之Nifi工作笔记0046
可以看到,数据经过GenerateTableFetch处理器,获取分页sql,然后通过ExecuteSql处理器执行,获取数据以后,然后把数据从Avro格式转换成Json格式,使用ConvertAvroToJSON处理器,然后再把分页的多条数据,进行拆分SplitJson处理器,然后拆分后的一条条数据,可以走可以看到,往右走一条线是:把数据直接存入Hbase数据库中,使用PutHbaseJSON。这里先说一下需求,我们想把数据从不同的数据源取出来以后,当然这里是一个数据源,取出来以后,原创 2023-05-11 14:12:07 · 255 阅读 · 0 评论 -
phoenix无法连接hbase shell创建表失败_报错_PleaseHoldException: Master is initializing---记录020_大数据工作笔记0180
删除以后刷新可以看到没有了,然后再去关闭,hbase,关闭hadoop,然后关闭zk,然后再去重新启动,然后再去试试可以了不..好像知道怎么回事了,我用nifi,连接hbase,死活连不上,网上说,让加上 /hbase-unsecure之类的。今天发现,我的phoenix,去连接hbase集群,怎么也连不上了,奇怪了...弄了一晚上。好吧 ,还是在界面上删除吧,来这里,把那个hbase文件夹删,点击右边删除按钮就可以了.然后。先启动zk,然后再去启动hadoop,然后再去启动hbase。原创 2023-05-08 10:44:29 · 370 阅读 · 0 评论 -
Neo4j图数据库的数据模型_包括节点_属性_数据_关系---Neo4j图数据库工作笔记0002
可以看到ann 和dan的 关系 以及dan的熟悉 以及他们都有person标签。其实还有标签 标签就相当于表,比如person表,把 节点 都归为一类了。可以看到一个圈表示一个节点,然后两个节点直接可以有关系,关系可以是双向的。节点可以有一个或多格标签,可以有一个或多格属性 通过关系连接到其他节点。可以看到连接上以后,有标签,节点标签可以理解成一个个的表,然后。属性是键值对 节点和关系都可以包含属性。每个关系包含,开始节点和结束节点.点击关系也可以查看对应的关系。然后节点 标签 关系。原创 2023-05-05 13:55:08 · 603 阅读 · 0 评论 -
Neo4j图数据库的介绍_图数据库结构_节点_关系_属性_数据---Neo4j图数据库工作笔记0001
100万人,每个人有50个朋友,那么 这里深度是4的时候,关系型数据库就已经查询不出来了。其实就是用来,指定数据之间的关系,但是他这个更适合处理,数据之间的大规模的关系。可以对比一下关系数据库和图数据库,可以看到,当深度 是4的时候,就是。可以看到,在图数据库中,有person这个节点,有部门也是个节点。可以看到在图数据库中,关系型数据库中的表,对应图数据库中的图,在关系型数据库中有约束,在图数据库中没有, 但是有关系.关系型数据库中的行,对应图数据库中的节点,可以用图数据库和其他数据库做个对比。原创 2023-05-05 13:29:11 · 442 阅读 · 0 评论 -
NIFI从MySql中增量同步数据_通过Mysql的binlog功能_实时同步mysql数据_配置binlog_使用处理器抓取binlog数据_实际操作01---大数据之Nifi工作笔记0040
1.首先我这里重新安装了一个mysql8.0.33 ,安装的是windows版本的,如果你是linux版本的,这里也说一下,如何开启binlog功能,首先要开启binlog才行.我们基于之前做的从mysql中获取数据,然后同步数据到mysql中,基于这个案例来做,可以看到上面是,这个案例的所有处理器,我们基于这个来改造.从172.19.126.123的mysql8.0的数据库表userinfo中,实时的捕获增量数据,然后再实时的,导入到。执行一下可以进来....我的天,怎么回事 ,弄一天了,急了急了~原创 2023-04-27 21:26:33 · 724 阅读 · 0 评论 -
NIFI从PostGresql中离线读取数据再导入到MySql中_带有数据分页获取功能_不带分页不能用_NIFI资料太少了---大数据之Nifi工作笔记0039
然后再拖入一个splitjson处理器,把转换后的json数据,进行分割,如果是json数组的话会被分割成一条一条的。这里一定要注意的就是,这里,在postgresql中,写sql的时候要用,单引号,不要用双引号,用双引号执行报错。然后再去拖入一个replacetext处理器,用来把从json中提取的数据,替换到我们自己编写的sql语句中。可以看到执行处理器以后的数据,当然这里,可以看一下flowfile的,队列中的flowfile的属性.然后配置对应的url,驱动名称,驱动位置 ,数据库名称,密码。原创 2023-04-25 10:06:56 · 352 阅读 · 0 评论 -
大数据共享接口_如何在SpringBoot_RuoYi-Cloud-Plus-master中制作_动态生成的Restful接口_每个接口都有独立的_唯一的名称---SpringCloud工作笔记196
最近在做大数据共享的接口,需要在SpringBoot微服务框架中实现,接口共享数据,这要求,按照用户的数据需求来生成各种各样的数据接口.我们这时候,我们的后台肯定是没有这样一个接口的,那么如何让,前台请求这个接口的时候,还可以。当然这里主要是因为url是可以配置在代码中,可以用通配符的,其实还可以有各种的组合也是可以的.这样就可以了...这是一种思路,也已经实现了.没问题。等等都是通过界面勾选需要的数据以后,自动生成的.比如这样访问的时候就可以访问了,记得要把。原创 2023-04-24 14:28:01 · 331 阅读 · 0 评论 -
NIFI从MySql中离线读取数据再导入到MySql中_03_来吧用NIFI实现_数据分页获取功能---大数据之Nifi工作笔记0038
实际引用环境中,我们的一张mysql的表,可能有上千万的数据,那么,不可能,我们把sql查询语句写死,这样一次性如果获取所有数据,那么压力太大了,我们怎么弄呢?找了很久没有找到相关教程,自己做了测试,整理出来了.querydatabasetable处理器删除掉了,对,因为querydatabasetable,不支持分页,所以我们删除掉了,除了替换掉了,这两个处理器,其他的。内容分别是这3条sql对吧,可以看到这个处理器,已经根据我们的要求,给我们自动生成了分页的sql了,然后,我们再去把,这些sql,原创 2023-04-20 19:43:55 · 982 阅读 · 2 评论 -
NIFI从MySql中离线读取数据再导入到MySql中_无分页功能_02_转换数据_分割数据_提取JSON数据_替换拼接SQL_添加分页---大数据之Nifi工作笔记0037
select id,name,mobile,son_json from user_info_nifi limit 0,2 这里注意,我们漏下了email,没有取,所以后面,没有取出来email是正常的。修改它的配置,属性这里,这个JSON container options这里设置成array,就是我们把多条数据,转换成json数组,如果传过来的是多条数据的话.我们再去启动evaluateJsonPath处理器去看看,可以看到,这个时候,出来的两个flowfile,就已经根据,我们上面对。原创 2023-04-20 17:15:00 · 290 阅读 · 0 评论 -
NIFI从MySql中离线读取数据再导入到MySql中_不带分页处理_01_QueryDatabaseTable获取数据_原0036---大数据之Nifi工作笔记0064
我们的sql语句起取了1条对吧,因为我们设置了run schedule,是3秒钟执行一次,所以这里出现了,一堆的数据,但是每个数据好像都是一样的.然后再看convertavrotojson处理器,拖拽过来一个,因为querydatabasetable处理器,查询过来的数据是avro格式的,然后我们设置querydatabasetable处理器的run schedule,大一点,因为这里去查询数据,查一次就可以了,因为我们的sql是写死的这里,所以,如果重复查的话,那么数据是重复的.原创 2023-04-20 15:55:01 · 724 阅读 · 0 评论 -
大数据分析查询_Impala介绍_对HDFS_Hbase直接查询_速度快_组成架构_执行原理---大数据之Impala工作笔记0001
首先sql app odbc做为客户端会,发送sql语句给,impalad,当集群中的impalad接收到sql语句以后,然后会首先给query planner 然后,sql解析后会交给,query coordinator 集群协调器,然后这个query。query planner是负责接收sql语句,然后分析,分析以后给query coordinator是把,分析后的sql语句分配给哪个impalad去执行的,分给哪个impala,那么对应的impalad的query executor就去执行就可以了。原创 2023-04-20 13:25:54 · 307 阅读 · 0 评论 -
ApachePulsar认识Pulsar云原生消息队列_云原生介绍_介绍Pulsar_多租户_云原生_分片流_跨地域复制_消息系统灵活_---大数据之ApachePulsar工作笔记0001
然后我们再来看他的灵活的消息系统,我们知道kafka是只能以消息队列的模型来进行,消息的传输的,但是他除了可以,用消息队列来消费,还支持,流式数据处理,就像flink一样对吧,他支持数据,流入以后,然后经过处理,以后,然后再流回到pulsar中去.这里租户模式,其实就相当于,我们windows中,可以有多个用户,每个用户,进去以后都有自己的用户界面,可以有自己的操作,然后命名空间,就是在租户下面,租户又可以创建很多自己的命名空间.然后租户,又可以对每个命名空间,去分片,存储,流控,不同的消息过期策略等等.原创 2023-04-19 19:34:16 · 124 阅读 · 0 评论 -
IceBerg数据湖_介绍_高表达SQL_完整模式演化_时间旅行和回滚_隐藏分区_数据压缩合并---大数据之_数据湖框架Apache Iceberg工作笔记0001
比如你有一个公司 电商比较火的时候有个部门 做了一个电商的程序 用的mysql数据库关系型数据库,然后 还有 后来短视频火了,一个部门又做了一个 短视频程序,用的是hbase数据库 然后,后来 抖音又火了,这个时候另一个部门又做了一个抖音相关的程序,用的mongledb数据库.那么这个时候如果A,B,C部门,他们用的不同的数据库,如果想用彼此的数据,那么,他们就怎么共享数据?配置env,然后addsource,然后用算子计算,然后sink到什么位置对吧,处理后的数据存储。spark 和fink的程序.原创 2023-04-19 13:17:00 · 196 阅读 · 0 评论 -
IceBerg数据湖_介绍_高表达SQL_完整模式演化_时间旅行和回滚_隐藏分区_数据压缩合并---大数据之_数据湖框架Apache Iceberg工作笔记0001
而第二点,完整的模式演化,这个体现在,他也可以对表,分区,或者列进行修改,比如说对表的属性,分区,以及列进行修改,比如对表进行alter tbale进行修改,对列进行修改,添加,或修改,我们知道如果在hive中直接这样修改就可能造成数据会显示不出来.hive的分区,通过分区只能定义到文件在什么目录,而iceberg,除了能定义文件在什么目录也就是分区的位置,还能定义一些文件的位置,比如 分区过滤的时候可以跳过一些,不必要的分区和文件.这样查询过滤的效率就会高很多.原创 2023-04-18 20:39:11 · 196 阅读 · 0 评论 -
NIFI大数据进阶_实时同步MySql的数据到Hive中去_可增量同步_实时监控MySql数据库变化_实际操作_03---大数据之Nifi工作笔记0035
这个已经进入到队列中了.然后,可以看到匹配的就进入到下面了insert update这里,然后不匹配的,就到了。然后我们设置,对应的,load balance strategy,这个是加载负载均衡策略,我们选择轮训,然后。然后我们再去看看配置,这里,我们来监听mysql的binlog,这里我们只需要,在主节点执行就可以了。然后我们再去看产生的flowfile的属性可以看到,对应的我们需要提取的数据,从json中提取的数据。原创 2023-04-18 16:33:49 · 500 阅读 · 0 评论 -
NIFI大数据进阶_实时同步MySql的数据到Hive中去_可增量同步_实时监控MySql数据库变化_操作方法说明_02---大数据之Nifi工作笔记0034
对于update,是上面那样,也就是说,当是insert的时候,走RouteOnAttribute的insert的路由。然后这里我们再看,我们要获取json中的id,name,table_name等属性,可以看到,这里的。然后再来设置,根据不同的捕获的结果,比如insert 还是 update 等,来进行路由。可以看到这里对于insert,来说这里,就是用,从flowfile中,获取的这个。可以看到对应的,内容获取方式,都是通过jsonpath表达式从json中获取的。原创 2023-04-17 14:35:53 · 273 阅读 · 0 评论 -
NIFI大数据进阶_实时同步MySql的数据到Hive中去_可增量同步_实时监控MySql数据库变化_操作方法说明_01---大数据之Nifi工作笔记0033
这里的hive configuration也需要配置一下hadoop的配置文件,后面操作的时候我们会说,多个xml文件之间可以使用,号分割。这里是因为nifi,现在已经是支持2版本的hive了,因为我们的hive是1版本的所以要替换一下jar包.然后我们再来看这个puthiveql,其实就是执行hive的ql的,可以看到,也需要一个数据库连接池。再用ReplaceText处理器,将对应的属性数据进行替换,然后把替换后的hive的sql语句进行。然后再来看这里提供通过套接字访问的映射缓存,这个意思就是。原创 2023-04-17 13:54:35 · 434 阅读 · 0 评论 -
NIFI大数据进阶_Json内容转换为Hive支持的文本格式_实际操作_02---大数据之Nifi工作笔记0032
可以看到我们让他失败的时候failure和unmatched的时候数据都,连接到它自身,不往下流转就可以了。内容可以看到,拿到对应的${id} 等数据以后,我们让他们之间的分割,改成 tab分割,这个就改变了。然后我们设置,当数据匹配的时候,也就是,对应的${id}等都拿到的时候,我们matched的时候,我们看一下,可以看到splitjson,已经把array的json数据,都已经分割成了。这里配置的时候,我们让replacement value这里,我们让他的。原创 2023-04-11 23:16:41 · 326 阅读 · 0 评论 -
NIFI大数据进阶_Json内容转换为Hive支持的文本格式_操作方法说明_01_EvaluteJsonPath处理器---大数据之Nifi工作笔记0031
首先看一下用到的处理器,可以看到这里我们用到了evaluateJsonPath处理器,这个处理器用来提取json中的熟悉,然后ReplaceText处理器用来替换掉FlowFile中的属性的内容。首先看一下这个EvaluateJsonPath处理器,他可以使用JsonPath表达式来提取json数据中的数据.,并且把数据写入到FlowFile的属性中去。提取出来,用 /t 隔开对吧,然后我们这个evaluation mode这里的模式,我们用line by line 的模式,一行一行。原创 2023-04-11 22:21:05 · 508 阅读 · 0 评论 -
NIFI大数据进阶_离线同步MySql数据到HDFS_02_实际操作_splitjson处理器_puthdfs处理器_querydatabasetable处理器---大数据之Nifi工作笔记0030
首先我们看在export download config下面我们看看,找到对应的配置文件,然后放进来,是因为失败的时候和original,splitjson处理器,如果分割json数据失败的时候,还有。然后我们设置一下连接,设置for relationships,success的时候,数据流转到。因为数据,其实 之前的两条json,包含了每个json,包含了5条 json数据对吧。然后我们准备好了文件以后,然后开始配置就可以了,注意文件之间通过,分隔开就可以了.原创 2023-04-11 21:44:54 · 166 阅读 · 0 评论 -
NIFI大数据进阶_离线同步MySql数据到HDFS_01_实际操作---大数据之Nifi工作笔记0029
然后我们实际操作一下如何把mysql中的数据同步到hdfs中去,这里注意,这里是查询mysql中的表中的数据,然后放到。hdfs中去,并不是说,如果mysql数据表中的数据变化了,就自动同步到hdfs,这个功能后面我们再说,这是增量同步。然后设置这个处理器,scheduling,设置定时是9999sec,时间一定要长一点,不能不停的查询,服务器压力大。这里首先我们这里设置,我们json container options这里,我们让解析数据格式,设置成array。原创 2023-04-11 20:20:19 · 674 阅读 · 0 评论 -
NIFI大数据进阶_离线同步MySql数据到HDFS_说明操作步骤---大数据之Nifi工作笔记0028
convertavrotojson把avro格式转换成json格式,然后再用splitjson,切割json数据,提取json中的数据,到splitjson的自定义属性中,然后再。处理器我们需要这些处理器,首先通过querydatabasetable处理器,查询mysql中的数据,然后,把mysql中的数据,导入到。用puthdfs处理器,提取splitjson切割好的,提取好的数据,拼接到puthdfs的命令中,就可以提交数据到hdfs中了。原创 2023-04-10 23:08:12 · 681 阅读 · 2 评论 -
NIFI大数据进阶_Kafka使用相关说明_实际操作Kafka生产者---大数据之Nifi工作笔记0036
拖拽出一个generateFlowFile处理器,然后给到publishkafka_0_10处理器的连接 ,设置for relationships 是success,成功的时候,数据flowfile流动到publishkafka_0_10。可以看到已经成功获取到数据,也就是,数据已经通过generateFlowFile处理器生成,然后给publishkafka处理器,然后这个publishkafka处理器就把数据,放到kafka中去了.原创 2023-04-10 22:26:17 · 502 阅读 · 0 评论 -
NIFI大数据进阶_Kafka使用相关说明_实际操作Kafka消费者处理器_来消费kafka数据---大数据之Nifi工作笔记0037
首先我们先看一下kafka消费者流程,可以看到,我们需要创建一个consumeKafka_0_10 因为我们用的kafka的版本是0_10的对吧,要用对应版本的,消费者,然后,再用一个logattribute处理器,消费的。然后我们再来看看这里的groupid,这里我们写个nifi就可以了,这个我们就一个分组,我们随意写就可以了.然后就是可以启动处理器,去查看日志了,当然要,先运行我们上一节,的生产者,然后再运行这里的。可以看到这里scheduling这里,execution这里,我们设置,节点是。原创 2023-04-10 22:05:16 · 492 阅读 · 0 评论 -
NIFI大数据进阶_连接与关系_设置数据流负载均衡_设置背压_设置展现弯曲_介绍以及实际操作---大数据之Nifi工作笔记0027
然后我们再来开启,generateFlowFile处理器,开启,replacetext处理器,然后开启extracttext处理器,可以看到这里,数据在生成的地方flowfile一直在增加对吧,但是数据到了extract text这里可以看到,out。然后再来看这个back pressure是背压,可以设置比如左侧,这个10000就是,flowfile在队列中的个数,如果超过10000,那么超过10000的flowfile就会被删除,然后,后面的size1gb,就说如果flowfile的大小,原创 2023-04-07 15:14:55 · 465 阅读 · 0 评论 -
NIFI大数据进阶_NIFI监控的强大功能介绍_处理器面板_进程组面板_summary监控_data_provenance事件源---大数据之Nifi工作笔记0025
然后再来看进程组面板可以看到有名称,有活动的任务数,有组件面板,有右上角的错误显示bulletin indicator 然后再来看 有队列中的flowfile数和大小,有in,有out 这些都是5分钟内的。然后再来看,当前进程组中有9个停止的,有4个暂停的,有2个运行的 这个component counts这里。可以看到flow lineage 血统 流程 可以看到可以看到流程,数据执行的流程事件,可以拖动看处理流程。首先来看看状态栏可以看到有在执行的处理器数,还有停止的处理器数,这里只是说一下监控功能,原创 2023-04-06 23:05:17 · 234 阅读 · 0 评论 -
NIFI大数据进阶_NIFI监控功能实际操作_Summary查看系统和处理器运行情况_viewDataProvenance查看_---大数据之Nifi工作笔记0026
然后我们点击info按钮还可以查看,具体的,这个处理器的信息,可以看到有设置,调度策略,属性信息 ,描述信息。可以看到下面有个replay这里,可以看到如果点击,会重新触发这个事件,目的是方便我们进行调试.可以看到一个FlowFile的内容,然后我们再来看,content可以看到,内容。就可以看到现在我们有哪些处理器在运行,有哪些处理,已经停止,然后有哪些。可以看到数据内容,然后我们找到一条,然后我们点击info的i,然后。可以看到也可以通过,右下角的那个改变大小的按钮,来改变图表大小,原创 2023-04-06 22:53:40 · 352 阅读 · 0 评论