bigdata
文章平均质量分 72
登峰大数据
专注于研究大数据架构(流批一体数仓架构),阅读并分享最新的大数据书籍,学习笔记!平时喜欢写文章,发布到CSDN和公众号(登峰大数据)。
展开
-
基于NIFI工具搭建生产级别的IIOT系统
如果需要修改MINIFI中的ETL任务,那么我们需要导出模板,转换成yml文件,放到MINIFI的conf目录下,然后重启MINIFI。技术上可行,但实际是不现实的,因为设备成千上万,部署位置千差万别。有没有更好的方法呢?原创 2023-10-11 09:49:58 · 335 阅读 · 0 评论 -
ETL工具NIFI的3种部署方式(免登录方式、单用户、多租户登录方式)
在实时数仓架构中,选一个得心应手的ETL工具,可以大大提高开发效率,节省人力成本。这里向大家推荐一款很好的、笔者已在生产环境中使用的、可以实现无代码编程的ETL工具:NIFI。原创 2023-03-14 16:22:01 · 1441 阅读 · 1 评论 -
使用Spark从数据库接入数据
第八章 从数据库接入数据本章涵盖了 从关系数据库中接入数据 理解方言在Spark和数据库之间的通信中的作用 在Spark中构建高级查询,以便在接入之前对数据库进行寻址 理解与数据库的高级通信 从Elasticsearch接入数据 在大数据和企业环境中,关系数据库通常是执行分析的数据来源。理解如何通过整个表或SQL SELECT语句从这些数据库中提取数据是有意义的。在本章中,您将学习从关系数据库中接入数据的几种方法,可以一次性接入全表,也可以在接入之前翻译 2020-12-09 21:34:18 · 1046 阅读 · 0 评论 -
kafka权威指南中文版之三
第三章kafka producer---向kafka写入消息无论你将kafka作为一个消息队列,或者消息总线,还是一个数据存储平台,你都要通过生产者producer向kafka写入数据,通过消费者consumer读取kafka的数据。例如,一个信用卡事务处理系统,会有一个客户端应用或者一个在线商店应用,负责在交易发生时,将每一个事务发送到kafka,另一个应用通过规则引擎校验这个事务,决定翻译 2017-03-25 22:42:40 · 6649 阅读 · 0 评论 -
Hadoop运维工程师专家之路--第二章Hadoop架构简介
第二章Hadoop架构简介本章包括l Hadoop架构l 分布式集群l HDFS架构l YARN架构本章介绍Hadoop架构。在你学习管理Hadoop集群之前,有必要先了解下Hadoop的集群架构。Hadoop包括两个基础层:存储层HDFS,处理层YARN。本章非常关键,因为它引入了几个关键术语,以及相关的守护进程和进程相互配合,完成hadoop数据库的存储和计翻译 2017-02-04 16:58:07 · 3427 阅读 · 1 评论 -
Hive实战9---更新、删除操作
1、创建表:create table users2(id int,name string)clustered by (id) into 1 buckets stored asorc tblproperties('transactional'='true');2、插入数据insert into users2(1,'ZHANGSAN'),(2,'LISI');3、更新数据upd原创 2016-10-08 16:53:44 · 2585 阅读 · 0 评论 -
hive实战1---安装hive
hive实战1---安装hive原创 2016-09-30 17:09:44 · 997 阅读 · 0 评论