![](https://img-blog.csdnimg.cn/b876105eaa2241cea34bdc56e5f1ca55.jpeg?x-oss-process=image/resize,m_fixed,h_224,w_224)
大数据相关组件介绍
文章平均质量分 93
本专栏将介绍实际工作过程中应用的大数据相关组件,所有的例子都是经过验证的,且都是原创的。
一瓢一瓢的饮 alanchanchn
2023博客之星12
本科毕业于西安电子科技大学
硕士毕业于华东理工大学
长期从事软件、管理相关工作,擅长管理、一般应用系统开发、大数据开发,常见的框架、组件较为了解。
展开
-
superset(二)基本使用详细示例以及superset权限控制介绍
Superset初始化权限之后,创建5个角色,分别为Admin,Alpha,Gamma,sql_lab以及Public。Admin,Alpha和Gamma角色,分配了很多的菜单/视图权限,如果手工去修改,改错的可能性很大,加之Superset并没有说明每一项权限的完整文档,所以不建议去修改这些角色的定义。灵活使用预置的角色,可以快速满足业务上安全控制需求。Admin:拥有所有权限Alpha:能访问所有数据源,增加或者更改数据源,但不能给更改其他用户权限。原创 2023-07-03 16:09:06 · 41521 阅读 · 0 评论 -
superset(一)详细部署步骤(python 3.7.15、windows11)及验证异常处理
Superset 是 Airbnb开源的数据探查与可视化平台,是个轻量级的BI工具,是一款开源的现代化企业级BI。它是目前开源的数据分析和可视化工具中比较好用的,功能简单但可以满足对数据的一般需求,支持多种数据源,图表类型多,易维护,易进行二次开发。集成数据查询功能,支持多种数据库,包括 MySQL、PostgresSQL、Oracle、SQL Server、SQLite、SparkSQL 等,并深度支持 Druid通过 NVD3/D3 预定义了多种可视化图表,满足大部分的数据展示功能。原创 2023-07-03 15:41:44 · 41382 阅读 · 0 评论 -
9、Elasticsearch7.6.1 ES与HDFS相互转存数据-ES-Hadoop
ES-Hadoop是Elasticsearch推出的专门用于对接Hadoop生态的工具,可以让数据在Elasticsearch和Hadoop之间双向移动,无缝衔接Elasticsearch与Hadoop服务,充分使用Elasticsearch的快速搜索及Hadoop批处理能力,实现交互式数据处理。本文介绍如何通过ES-Hadoop实现Hadoop的Hive服务读写Elasticsearch数据。Hadoop生态的优势是处理大规模数据集,但是其缺点也很明显,就是当用于交互式分析时,查询时延会比较长。原创 2023-06-30 15:04:59 · 42767 阅读 · 8 评论 -
8、Elasticsearch7.6.1收集mysql慢查询日志及监控
本文分为3个部分,即开启mysql慢查询日志、将mysql日志存储es和通过日志分析结果。以上,简单的介绍了elasticsearch通过mysql的日志监控其慢查询示例。本文简单的介绍了elasticsearch通过mysql的日志监控其慢查询示例。本文依赖es环境和mysql环境好用。原创 2023-06-30 14:43:20 · 42013 阅读 · 0 评论 -
7、Elasticsearch7.6.1收集nginx日志及监测指标示例
在 Nginx 中相关的状态页面需要通过打开 http_stub_status_module 这个模块获取,在编译 Nginx 时,通过加上–with-http_stub_status_module 进行打开,对应的访问/nginx_status页面就可以获取的 Nginx 的服务状态了。Metricbeat nginx模块监控Nginx时,需要启用Nginx的stub_status模块(默认不开启)。以上,简单的介绍了通过filebeat收集nginx日志并监控nginx的运行状态。原创 2023-06-30 14:26:16 · 41504 阅读 · 0 评论 -
6、Elasticsearch7.6.1、logstash、kibana介绍及综合示例(ELK、grok插件)
Logstash是一个开源的数据采集引擎。它可以动态地将不同来源的数据统一采集,并按照指定的数据格式进行处理后,将数据加载到其他的目的地。最开始,Logstash主要是针对日志采集,但后来Logstash开发了大量丰富的插件,所以,它可以做更多的海量数据的采集。它可以处理各种类型的日志数据,例如:Apache的web log、Java的log4j日志数据,或者是系统、网络、防火墙的日志等等。原创 2023-06-30 14:07:17 · 41567 阅读 · 0 评论 -
5、Elasticsearch7.6.1 filebeat介绍及收集kafka日志到es示例
FileBeat专门用于转发和收集日志数据的轻量级采集工具。它可以为作为代理安装在服务器上,FileBeat监视指定路径的日志文件,收集日志数据,并将收集到的日志转发到Elasticsearch或者Logstash。原创 2023-06-30 11:08:56 · 41770 阅读 · 0 评论 -
4、Elasticsearch7.6.1 Java api操作ES(CRUD、两种分页方式、高亮显示)和Elasticsearch SQL详细示例
Elasticsearch SQL允许执行类SQL的查询,可以使用REST接口、命令行或者是JDBC,都可以使用SQL来进行数据的检索和数据的聚合。没有额外的要求: 不依赖其他的硬件、进程、运行时库,Elasticsearch SQL可以直接运行在Elasticsearch集群上。以上,简单的介绍了java api操作Elasticsearch和Elasticsearch SQL的详细示例。本文简单的介绍了java api操作Elasticsearch和Elasticsearch SQL的详细示例。原创 2023-06-30 10:38:19 · 41589 阅读 · 0 评论 -
3、Elasticsearch7.6.1信息搜索示例(索引操作、数据操作-添加、删除、导入等、数据搜索及分页)
为了能够搜索职位数据,需要提前在Elasticsearch中创建索引,然后才能进行关键字的检索。在Elasticsearch中,需要指定表的名字、指定表中有哪些列、列的类型是什么的方式来定义索引。原创 2023-06-30 10:04:07 · 41568 阅读 · 0 评论 -
2、Elasticsearch7.6.1基本介绍、2种部署方式及验证、head插件安装、分词器安装及验证
Elasticsearch是一个基于Lucene的搜索服务器、提供了一个分布式多用户能力的全文搜索引擎,基于RESTful web接口- Elasticsearch是用Java语言开发的,并作为Apache许可条款下的开放源码发布,是一种流行的企业级搜索引擎- Elasticsearch用于云计算中,能够达到实时搜索,稳定,可靠,快速,安装使用方便。官方客户端在Java、.NET(C#)、PHP、Python、Apache Groovy、Ruby和许多其他语言中都是可用的原创 2023-06-30 08:39:30 · 41495 阅读 · 0 评论 -
1、介绍lucene的功能以及建立索引、搜索单词、搜索词语和搜索句子四个示例实现
Lucene是一种高性能的全文检索库,在2000年开源,最初由Doug Cutting(道格·卡丁)开发Lucene是Apache的一个顶级开源项目,是一个全文检索引擎工具包。但Lucene不是一个完整的全文检索引擎,它只是提供一个基本的全文检索的架构,还提供了一些基本的文本分词库Lucene是一个简单易用的工具包,可以方便的实现全文检索的功能。原创 2023-06-29 15:11:54 · 41479 阅读 · 0 评论 -
6、apache-kylin-3.1.3-bin-hadoop3 cube优化方向及减少cuboids和降低膨胀率详细示例
1、apache-kylin-3.1.3-bin-hadoop3介绍及部署、验证详解2、apache-kylin-3.1.3-bin-hadoop3集群部署3、apache-kylin-3.1.3-bin-hadoop3基本操作(创建model和cube、数据查詢)4、apache-kylin-3.1.3-bin-hadoop3增量构建、全量构建详细示例5、apache-kylin-3.1.3-bin-hadoop3 segment管理及JDBC操作6、apache-kylin-3.1.3-bin原创 2023-06-26 10:51:39 · 41477 阅读 · 0 评论 -
5、apache-kylin-3.1.3-bin-hadoop3 segment管理及JDBC操作
本文简单的介绍了可以林的segment的产生原因以及如何进行自动或手动合并,并介绍了通过java api进行操作kylin的数据集。本文依赖kylin环境好用。本文分为2个部分,即kylin的segment管理以及通过java api操作kylin数据集。原创 2023-06-26 09:44:30 · 41665 阅读 · 0 评论 -
CDH(Cloudera DataHub 6.2.1)部署(centos6、7)、常用组件(zookeeper、hive、hdfs、yarn、oozie、hue、impala、hbase)安装及验证
功能、可作为一组角色实施各种管理功能Activity Monitor:收集关于MapReduce服务运行的活动的信息。默认情况下不添加此角色,实际生产环境也是不需要的。Host Monitor:收集有关主机的运行状况和指标信息。Service Monitor:从YARN和Impala服务中收集关于服务和活动信息的健康和度量信息。Event Server:聚合组件的事件并将其用于警报和搜索。Alert Publisher :为特定类型的事件生成和提供警报,实际情况下用的也少。原创 2023-06-09 10:02:08 · 42852 阅读 · 2 评论 -
6、Druid的Roll up详细介绍及示例
Apache Druid可以通过roll-up在数据摄取阶段对原始数据进行汇总。Roll-up是对选定列集的一级聚合操作,它可以减小存储数据的大小。本文将讨论在一个示例数据集上进行roll-up的结果。Druid通过一个roll-up的处理,将原始数据在注入的时候就进行汇总处理roll-up可以压缩我们需要保存的数据量Druid会把选定的相同维度的数据进行聚合操作,可减少存储的大小Druid可以通过 queryGranularity 来控制注入数据的粒度。原创 2023-05-22 14:14:53 · 44001 阅读 · 0 评论 -
5、Druid配置文件详细介绍以及示例
使用Druid SQL查询,可以使用SQL查询来代替Druid原生基于JSON的查询方式。在Druid中,每一个数据源在Druid中都对应一张表,可以直接通过SELECT语句查询表中的数据。Druid最早提供JSON API的方式查询数据,通过JSON格式来定义各种查询组件实现数据查询。下面以 metrics-kafka 为例,演示在Druid中使用不同方式来进行数据查询、分析。本文主要介绍了Druid的配置文件内容,以及以示例说明配置文件的使用。本文分为2个部分,即配置文件说明和数据查询示例。原创 2023-05-22 14:13:07 · 44227 阅读 · 0 评论 -
4、java操作druid api
Druid提供了JDBC接口,项目可以直接使用 JDBC 连接Druid进行实时数据分析。本文简单通过一个示例介绍了通过jdbc访问druid的数据。2、编写JDBC代码连接Druid获取数据。本文依赖druid可用,且数据已经准备好。本文分为2部分,即需求和实现步骤。查询estdata数据源中。原创 2023-05-22 14:13:41 · 44266 阅读 · 0 评论 -
3、Druid的load data 示例(实时kafka数据和离线-本地或hdfs数据)
index-metrics-kafka.json 文件中。原创 2023-05-22 14:11:13 · 44061 阅读 · 0 评论 -
2、Druid的入门示例(使用三种不同的方式摄入数据和提交任务)
上述所有步骤就是了为得到该json,与上面通过postman执行的json是一样的(没有增加维度指标等参数,还是有些不同的)本文分为三部分,即简单示例1-通过命令和postman操作、示例2-通过druid操作和示例3-通过命令提交任务。使用Druid 分析(查询) 2022年5月8日 按照商品分类、商品区域的产品订单总额。本文主要介绍了Druid一个入门示例,使用三种不同的方式摄入数据和提交任务。以上,简单的介绍了druid的入门示例,即三种不同的方式摄入数据和提交任务。选择loca disk按钮。原创 2023-05-22 14:09:33 · 44298 阅读 · 0 评论 -
1、Druid(Imply-3.0.4)介绍及部署(centos6.10)、验证
Druid是MetaMarket 公司开发的,将Druid定义为“开源、分布式、面向列式存储的实时分析数据存储系统”。在高并发环境下,保证海量数据查询分析性能提供海量实时数据的查询、分析与可视化功能Imply也是Druid的核心团队开发的,它基于Apache Druid开发了一整套大数据分析解决方案Imply基于Druid进行了一些组件开发,提供开源社区版本和商业版,简化了部署,imply有点类似于Cloudera Manager。原创 2023-05-22 14:08:55 · 44302 阅读 · 0 评论 -
4、azkaban-3.51.0 通过api进行操作azkaban界面功能
以上,简单的介绍了azkaban的api文档操作及示例。本文主要介绍了azkaban通过api文档如何操作。原创 2023-05-18 17:06:46 · 44331 阅读 · 0 评论 -
3、azkaban-3.51.0 条件工作流flow和参数传递
除了type,command,dependencies三个必选参数外,还有如下参数可以为每个job配置一个flow的email属性,只会取最后一个job的配置,其他的job的email配置将会被忽略。原创 2023-05-18 17:05:28 · 44931 阅读 · 0 评论 -
2、azkaban-3.51.0 任务类型(Jobtypes,详细介绍command、java2种类型及示例)
其日志中有执行命令,实际情况可以根据该命令确定执行的main-class,看执行命令好像打包的时候不需要指定具体的main-class。如果涉及到引用jdk外的包,需要一并打包进jar即可(或指定具体的目录结构,形如:classpath=./lib/本文的前提是上一篇的azkaban使用介绍,因为本文的示例不会再说怎么上传、运行,而是直接给出源文件与运行结果。本文分为四个部分,即azkaban支持的类型、command类型示例、java类型示例和任务调度。4个job和一个jar文件一起打包,并上传即可。原创 2023-05-18 17:04:59 · 44433 阅读 · 0 评论 -
1、azkaban介绍、三种(solo-server、two-server和multiple-executor)部署方式及验证
Azkaban是由linkedin(领英)公司推出的一个批量工作流任务调度器,用于在一个工作流内以一个特定的顺序运行一组工作和流程。Azkaban使用job配置文件建立任务之间的依赖关系,并提供一个易于使用的web用户界面维护和跟踪你的工作流。原创 2023-05-18 17:04:34 · 44359 阅读 · 0 评论 -
9、NIFI综合应用场景-通过NIFI配置kafka的数据同步
Apache NiFi系列文章1、nifi-1.9.2介绍、单机部署及简单验证2、NIFI应用示例-GetFile和PutFile应用3、NIFI处理器介绍、FlowFlie常见属性、模板介绍和运行情况信息查看4、集群部署及验证、监控及节点管理5、NiFi FileFlow示例和NIFI模板示例6、NIFI应用场景-离线同步Mysql数据到HDFS中7、NIFI综合应用场景-将mysql查询出的json数据转换成txt后存储至HDFS中8、NIFI综合应用场景-NiFi监控MySQL bin原创 2023-05-11 16:05:09 · 45544 阅读 · 0 评论 -
8、NIFI综合应用场景-NiFi监控MySQL binlog进行实时同步到hive
Apache NiFi系列文章1、nifi-1.9.2介绍、单机部署及简单验证2、NIFI应用示例-GetFile和PutFile应用3、NIFI处理器介绍、FlowFlie常见属性、模板介绍和运行情况信息查看4、集群部署及验证、监控及节点管理5、NiFi FileFlow示例和NIFI模板示例6、NIFI应用场景-离线同步Mysql数据到HDFS中7、NIFI综合应用场景-将mysql查询出的json数据转换成txt后存储至HDFS中8、NIFI综合应用场景-NiFi监控MySQL bin原创 2023-05-11 16:04:19 · 45258 阅读 · 0 评论 -
7、NIFI综合应用场景-将mysql查询出的json数据转换成txt后存储至HDFS中
Apache NiFi系列文章1、nifi-1.9.2介绍、单机部署及简单验证2、NIFI应用示例-GetFile和PutFile应用3、NIFI处理器介绍、FlowFlie常见属性、模板介绍和运行情况信息查看4、集群部署及验证、监控及节点管理5、NiFi FileFlow示例和NIFI模板示例6、NIFI应用场景-离线同步Mysql数据到HDFS中7、NIFI综合应用场景-将mysql查询出的json数据转换成txt后存储至HDFS中8、NIFI综合应用场景-NiFi监控MySQL bin原创 2023-05-11 16:01:02 · 44965 阅读 · 0 评论 -
6、NIFI综合应用场景-离线同步Mysql数据到HDFS中
Apache NiFi系列文章1、nifi-1.9.2介绍、单机部署及简单验证2、NIFI应用示例-GetFile和PutFile应用3、NIFI处理器介绍、FlowFlie常见属性、模板介绍和运行情况信息查看4、集群部署及验证、监控及节点管理5、NiFi FileFlow示例和NIFI模板示例6、NIFI应用场景-离线同步Mysql数据到HDFS中7、NIFI综合应用场景-将mysql查询出的json数据转换成txt后存储至HDFS中8、NIFI综合应用场景-NiFi监控MySQL bin原创 2023-05-11 16:00:57 · 44994 阅读 · 2 评论 -
5、NiFi FileFlow示例和NIFI模板示例
Apache NiFi系列文章1、nifi-1.9.2介绍、单机部署及简单验证2、NIFI应用示例-GetFile和PutFile应用3、NIFI处理器介绍、FlowFlie常见属性、模板介绍和运行情况信息查看4、集群部署及验证、监控及节点管理5、NiFi FileFlow示例和NIFI模板示例6、NIFI应用场景-离线同步Mysql数据到HDFS中7、NIFI综合应用场景-将mysql查询出的json数据转换成txt后存储至HDFS中8、NIFI综合应用场景-NiFi监控MySQL bin原创 2023-05-11 15:59:21 · 44989 阅读 · 0 评论 -
4、NiFi集群部署及验证、监控及节点管理
如果投票时间(nifi.cluster.flow.election.max.wait.time)到了或者某一个flow.xml.gz已经达到票数(nifi.cluster.flow.election.max.candidates),则选出一个正确的flow.xml.gz。集群中的每个节点都对数据执行相同的任务,但每个节点都在不同的数据集上运行。如果集群协调器确定允许该节点加入(基于其配置的防火墙文件),则将当前流提供给该节点,并且该节点能够加入集群,假设节点的流副本与集群协调器提供的副本匹配。原创 2023-05-11 15:55:54 · 45413 阅读 · 0 评论 -
3、NIFI处理器介绍、FlowFlie常见属性、模板介绍和运行情况信息查看
NIFI除了提供能够将特定信息从FlowFile内容提取到属性中的处理器之外,NIFI还允许用户将自定义属性添加到每个FlowFile中的特定位置。UpdateAttribute就是专为此目的而设计。用户可以通过单击属性选项卡右上角的+按钮,在配置对话框中向处理器添加新属性。然后UI会提示用户输入属性的名称,然后输入值。对于此UpdateAttribute处理的每个FlowFile,都会添加用户自定义属性。Attribute的名称将与添加的属性的名称相同。属性的值也可以包含表达式语言。原创 2023-05-10 17:23:35 · 45554 阅读 · 0 评论 -
2、NIFI应用示例-GetFile和PutFile应用
3、NIFI处理器介绍、监控等4、集群部署及验证、监控及节点管理5、NIFI FileFlow示例、模板以及拓扑6、NIFI 表达式、监控、连接、负载均衡与集群7、NIFI综合应用场景(DB-Hdfs、json转换、mysql同步到hive、kafka同步)原创 2023-05-10 16:38:05 · 45579 阅读 · 0 评论 -
1、nifi-1.9.2介绍、单机部署及简单验证
1、选择处理器组件2、弹出窗口显示的就是所有处理器。原创 2023-05-10 16:37:23 · 45759 阅读 · 0 评论 -
5、ETL工具的比较(DataPipeline,Kettle,Talend,Informatica,Datax ,Oracle Goldeng
本文介绍ETL工具的比较。本文为网上内容整理。原创 2023-05-06 08:46:22 · 45473 阅读 · 0 评论 -
4、sybase相关同步-sybase通过datax同步到hdfs
同步sybase数据库的数据,需要使用通用数据库同步的reader和writer,即RDBMSReader和RDBMWriter。RDBMSReader插件实现了从RDBMS读取数据。在底层实现上,RDBMSReader通过JDBC连接远程RDBMS数据库,并执行相应的sql语句将数据从RDBMS库中SELECT出来。目前支持达梦、db2、PPAS、Sybase数据库的读取。RDBMSReader是一个通用的关系数据库读插件,您可以通过注册数据库驱动等方式增加任意多样的关系数据库读支持。原创 2023-05-06 08:45:57 · 45450 阅读 · 0 评论 -
2、mysql相关同步-mysql通过datax同步到mysql、mysql和hdfs通过datax相互同步
DataX3.0系列文章1、datax3.0部署与验证2、mysql相关同步-mysql同步到mysql、mysql和hdfs相互同步3、oracle相关同步-oracle到hdfs4、sybase相关同步-sybase到hdfs5、ETL工具的比较(DataPipeline,Kettle,Talend,Informatica,Datax ,Oracle Goldeng文章目录DataX3.0系列文章一、mysql同步到mysql1、配置文件示例2、编写配置文件3、提交任务1)、创建表2)、提原创 2023-05-06 08:43:44 · 45155 阅读 · 0 评论 -
3、oracle相关同步-oracle通过datax同步到hdfs
本文介绍oracle的相关同步,oracle同步到hdfs中。本文分为三部分,即配置文件模板、配置文件和提交任务。本文的前提:数据库对应的表已经建好。原创 2023-05-06 08:41:17 · 45339 阅读 · 0 评论 -
1、datax3.0部署与验证
DataX 是阿里云DataWorks数据集成 的开源版本,在阿里巴巴集团内被广泛使用的离线数据同步工具/平台。DataX 实现了包括 MySQL、Oracle、OceanBase、SqlServer、Postgre、HDFS、Hive、ADS、HBase、TableStore(OTS)、MaxCompute(ODPS)、Hologres、DRDS, databend 等各种异构数据源之间高效的数据同步功能。原创 2023-05-06 08:40:00 · 45592 阅读 · 0 评论 -
5、ClickHouse查看数据库容量、表的指标、表分区、数据大小等
本文主要介绍ClickHouse查看数据库容量、表的指标、表分区、数据大小等,每种都有具体的使用示例。本文使用前提参考该系列文章中的部署与验证。本文主要分为六部分,即查看数据库容量、查看表的各个指标查看表分区、跟踪分区、检查数据大小和查看表中列的数据大小。Clickhouse是一个高性能且开源的数据库管理系统,主要用于在线分析处理(OLAP)业务。原创 2023-05-05 14:51:25 · 49169 阅读 · 0 评论 -
4、clickhouse的Log系列表引擎、外部集成表引擎和其他特殊的表引擎介绍及使用
本文主要介绍MergeTree引擎的几种情况,每种都有具体的使用示例。本文使用前提参考该系列文章中的部署与验证。本文主要分为三部分,即Log系列表引擎、外部集成表引擎和其他特殊的表引擎介绍。Clickhouse是一个高性能且开源的数据库管理系统,主要用于在线分析处理(OLAP)业务。它采用列式存储结构,可使用SQL语句实时生成数据分析报告,另外它还支持索引,分布式查询以及近似计算等特性,凭借其优异的表现,ClickHouse在各大互联网公司均有广泛地应用。原创 2023-05-05 14:51:17 · 45354 阅读 · 0 评论