自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(242)
  • 资源 (4)
  • 收藏
  • 关注

原创 Grafana+Prometheus监控Flink on YARN系统搭建

1.简介Flink支持多种监控指标的汇报reporter,例如jmx、slf4j、Prometheus、InfluxDB等。Grafana+Prometheus是当前比较流行的监控可视化解决方案。如下图为Prometheus及相关组件组成的生态系统。2.安装配置Prometheus是采用拉模式的方式,从exporter拉取监控的数据。但Prometheus自动发现Flink on YARN作业的提交、结束以及自动拉取数据是比较困难的。PushGateway作为一个中转组件,通过配置Flink on

2020-05-22 23:23:32 1060

原创 DockerHub 镜像加速

Docker Hub 作为目前全球最大的容器镜像仓库,为开发者提供了丰富的资源。Docker Hub 是目前最大的容器镜像社区,DokcerHub的不能使用,导致在docker下pull镜像无法下载,安装kubernetes镜像也受到影响,下面请看解决方式。1.加速原理Docker下载加速的原理,是在拉取镜像时使用一个国内的镜像站点,该站点已经缓存了各个版本的官方Docker镜像,这样就能够实现对Docker下载速度的优化。2.国内可加速网址。

2024-06-20 17:20:33 1555

原创 安可、信创的区别和联系

信创的推广采用了"2+8+n"的策略,即从党政机关开始,逐步扩展到金融、电力、电信、石油、交通、教育、医疗、航空航天等八大行业,最终覆盖到普通消费市场。这一工程的实施,伴随着"2+8"安全可控体系框架的确立,首先在党政机关的核心信息系统中推动国产化,随后逐步拓展至金融、能源、通信、交通、教育、医疗、航空等多个关键行业。"安可"是"安全可靠"的简称,它强调的是在信息技术领域,特别是在关键系统、关键应用及关键软硬件产品的研发与集成上,达到安全、可靠的标准。能够初步实现对国外信息技术产品的全方位替代。

2024-06-20 17:14:41 1252

原创 索引yellow状态问题处理

在Elasticsearch中,处理具有特定状态(例如"yellow"状态)通常意味着你的集群中有一个或多个分片未被分配。这种情况通常发生在一个新的索引被创建,或者是某个节点宕机,导致重分配分片的必要。5.如果上述步骤不能解决问题,可能需要检查集群中节点的日志,查看是否有其他错误信息,或者检查网络和磁盘配额是否有问题。请注意,强制分配分片可能会导致数据丢失,因此在执行这些操作之前应该确保已经有一个数据备份。3.如果是因为节点宕机,等待节点重新加入集群或手动将分片分配到其他节点。1.检查集群健康状态。

2024-06-20 17:09:31 875

原创 Elasticsearch集群许可证过期问题解决方法汇总

(4)下载的许可证文件上传到ES服务器任意位置,许可证文件名可修改.的错误,到时候依然需要再次执行以上命令来保证 es 正常运行。另外一种方式使用kibana来更新证书,如下是具体更新的界面.许可证是提供免费一个月的试用,但是到期之后,就会报这个错误。通过信息的提示,可以定位到你许可证过期需要重新申请。注册成功后,使用的邮件会收到下载链接信息。解决问题,到一定时间以后,依然会出现。(7)再次查看许可证过期时间是否增加。(3)点击下载与ES对应的版本。(5)查看许可证过期时间命令。(6)使用新下载的许可证。

2024-05-22 17:16:33 1770

原创 数据节点下线

由于公司近期需要将机械盘替换成SSD盘,SSD盘又不足,需要下线部分数据节点.刚开始是直接粗暴的关掉了4个节点上的datanode服务,出现很多丢失的数据块,执行hql时出现无法获取数据块执行失败;经过排查原因集群副本设置的是2,直接关闭会导致副本来不及复制就关掉.等到如下指标为0时,再关掉下一台。

2024-04-24 17:31:17 271

原创 arm服务器上部署kibana

注意:选平台时切勿选错,linux aarch64,并选择elasticsearch对应的历史版本。# 后台启动(2>&1将标准输出流和错误输出流都输出到kibana.log)没访问到,取消安全验证就可让kibana找到es.es在启动时设置了密码开启了安全验证,导致。#授权 我们直接把整个文件夹的权限授予。修改配置,添加账号和密码信息.# 查看端口是否开放。

2024-02-28 15:34:51 665

原创 模型设计、数据架构、数据治理一体化大数据平台

数据中间层最为重要的目标就是把同一实体不同来源的数据打通起来,这是因为当前业务形态下,同一实体的数据可能分散在不同的系统和来源,且这些数据对同一实体的标识符可能不同。随着互联网规模不断的扩大,数据也在爆炸式地增长,各种结构化、半结构化、非结构化数据的产生,越来越多的企业开始在大数据平台下进行数据处理。值得注意的是,数据集市层需要能够快速试错。(3)标签服务,大数据的应用场景下,经常会对主体进行特征刻画,比如客户的消费能力、兴趣习惯、物理特征等等,这些数据通过打标签转换成KV的数据服务,用于前端应用查询。

2024-02-26 14:20:29 1158

原创 ARM服务器部署Kafka集群

配置kafka连接zookeeper的地址,如果部署的是zookeeper集群,需要使用逗号分开,根据自己的需要灵活修改。#配置kafka连接zookeeper的地址,如果部署的是zookeeper集群,需要使用逗号分开,根据自己的需要灵活修改。#配置kafka连接zookeeper的地址,如果部署的是zookeeper集群,需要使用逗号分开,根据自己的需要灵活修改。三台服务器节点搭建几乎一致,但是需要重点关注【server.properties】的配置细节。需要这方面信息的可以查看我之前写的文档;

2024-02-23 16:19:16 1201

原创 ARM服务器上部署zookeeper集群

如果你的压缩包是3.5以上的版本,随着版本的更新,3.5版本以后的压缩包分成了两种我们需要使用文件名带有bin 的那个压缩包,例如:apache-zookeeper-3.5.10-bin.tar.gz 这样解压后才会有lib目录下的那些jar包.(1)标准版本(Apache ZooKeeper x.y.z ),下载的文件名为:apache-zookeeper-x.y.z-bin.tar.gz。下载了错误的版本文件,Zookeeper 从3.5.10后开始拆分为两个版本,而且他们的结构还很类似。

2024-02-22 16:52:06 1146

原创 开源大数据管理平台

包括 Hadoop、Hive、HBase、Pig、Spark 等等。同时,Apache Bigtop 还提供了一些示例和文档,帮助用户更好地理解和使用这些组件。Apache Bigtop 是一个开源项目,目的是提供一套完整的开源软件栈,用于构建、测试和部署大数据平台。目前两大开源大数据平台CDH和HDP已闭源,国内也涌现出了一些开源的大数据平台,比如:apache bigtop 和。新一代云原生大数据管家,致力于帮助用户快速构建起稳定、高效、可弹性伸缩的大数据云原生平台。一、apache bigtop。

2024-02-21 21:52:11 824

原创 数据分类分级

分级则是根据数据的敏感度和数据遭到篡,破坏,泄露,非法使用等对国家和受害者的影响程度对各个类别数据再进行分级,然后根据分级的结果对数据进行相应的管理和保护。数据分类分级实施流程包括数据资产梳理、数据分类、数据定级、审核标识管理、数据分类分级保护。一段时间没写文章了,最近做政府数据治理方面的项目,数据治理一个重要的内容是数据安全,会涉及数据的分类分级,是数据治理的基础。数据分类分级保护:依据国家给出的关于核心数据、重要数 据、个人信息、公共数据等安全要求,对数据实施全流程分类分级管理和保护。

2024-02-09 11:57:21 780

原创 数据治理工程师 CDGA数据建模和设计

8. 确保每个实体都有最小的主键,每个属性都依赖于完整的主键属于哪种范。C 数据模型是一种文档形式,用于记录数据需求和建模过程产生的数据定义。D 数据模型通过以电子的形式获取知识来保存系统或项目的企业信息。D 代理键允许在结构间进行更高效的导航,并促进跨应用程序的集成。A 概念数据模型仅包括给定的领域和职能中基础和关键的业务实体。1. 以下选项不属于数据建模和设计治理中质量管理内容的是(3. 以下关于数据建模和设计治理管理内容描述正确的是 (9. 数据拱顶模型有三种类型的实体,以下错误的是 (

2024-01-14 22:51:42 606

原创 数据治理工程师CDGA数据架构

B 企业数据模型包括通用的和特定于应用或具体 项目的数据模型及其定义、规。B 在开发模型中获取数据模型和其他数据架构构件,然后被数据架构师标准化和。A 企业数据模型不应创建为单独的构件,应由不同角度和不同层级的细节构成。C 企业模型包醐承关系模型、概念模型、主题域模型、逻辑模型、物理模型。A 企业模型包括继承关系模型、概念模型、主题域模型、逻辑模型。D 企业模型包括继承关系模型、概念模型、逻辑模型、物理模型。B 企业模型包括概念模型、主题域模型、逻辑模型、物理模型。

2024-01-14 22:29:48 509

原创 数据治理工程师 CDGA-数据治理

B 数据治理的目的是确保数据根据数据管理制度和最佳实践正确地管理数据。13. 关于数据治理和数据管理的关系,描述不正确的是哪项?17. 在数据治理的度量指标中,关于有效性的描述错误的是?C 数据治理的驱动力是确保组织可以从其数据中获得的价值。5. 以下关于数据治理与管理职责的活动描述错误的是?7. 在数据治理输入的内容中,以下哪项是错误的?10. 关于数据治理的度量指标,下列描述有误的是?6. 关于数据治理的度量指标,下列描述有误的是?14. 关于数据治理组织的职能描述错误的是哪项?

2024-01-09 22:55:30 704

原创 数据治理工程师 CDGA 认证-数据管理及答案

知识领域语境关系图,请从下列选项中选择正确描述知识领域语境关系图的选项。A.知识领域语境关系图中包括知识领域定义、目标、业务驱动因素、技术驱动。B.知识领域语境关系图中包括知识领域定义、目标、输入、活动、交付成果、D.知识领域语境关系图中包括知识领域定义、目标、业务驱动因素、技术驱动。因素、输入、活动、交付成果、供给者、参与者、消费者、方法、工具、度量指。C. 知识领域语境关系图中包括计划、控制、开发、运营。供给者、参与者、消费者、方法、工具、度量指标。9、DAMA 语境关系图中的活动不包括哪项(

2024-01-08 23:09:28 876

原创 flume异常关闭文件修复方法

flume在从kafka采集数据后,会将数据写入到hdfs文件中。在写入过程中,由于集群负载、资源或者网络原因会导致文件没有正常关闭,即文件表现为tmp格式,这种格式的文件从hdfs往hive分区load数据时,会导致数据无法查询问题。

2023-11-14 17:15:37 847

原创 standard_init_linux.go:211: exec user process caused “exec format error“

解决办法:针对不同的硬件架构构建不同的镜像,或者构建跨架构(multi-arch)的镜像。1、硬件架构不兼容在 amd 和 arm 架构下构建的镜像很有可能不能互通。系统是 aarch64,下载的进行是amd64,所以运行时提示格式不对。这个问题主要是由不兼容引起的。

2023-11-06 09:17:10 2576

原创 elasticsearch无法访问9200端口

修改配置文件elasticsearch.yml,并最后添加如下内容:vim ./config/elasticsearch.yml。部署的版本为elasticsearch-7.13.2,排查原因是因为开启了ssl认证。

2023-11-02 11:50:11 3699

原创 部署SeaTunnel单节点Standalone 模式环境

在config目录下有一个自带的实时同步任务的配置文件v2.streaming.conf.template,该文件定义了一个作业,使用一个叫FakeSource的Source连接器生成数据,并将数据发送给Console这个Sink,Console Sink的作用是将接收到的数据打印到控制台。SeaTunnel需要自己安装同步数据需要的连接器插件,需要用户编辑config下plugin_config文件,该文件描述了需要下载和安装的连接器插件,默认所有已经支持的连接器插件都会下载和安装。

2023-10-25 09:28:25 683

原创 hive字段关键字问题处理

最近在xxl_job部署shell调度任务时,发现在编写Hql时,对一些使用关键字命名的字段无法解析,按开发规范,字段命名不应该有关键字,但是数据来源是第三方,无法修改,需要通过flume对从kafka的数据到hdfs上,数据是json格式,所以需要对关键字字段进行处理,最初是通过 `,',",‘,“ 都无法识别,最后对通过转义字符解决了,解决方法如下:具体报错如下:比如需要对local关键字进行转义,转义规则如下:\`local\`问题解决。

2023-10-23 16:03:07 1029

原创 HIVE-17824,删除hdfs分区信息,清理metastore元数据

当有大量未跟踪的分区时,运行MSCK REPAIR TABLE批处理避免OOME(内存不足错误)。通过为属性hive.msck.repair.batch.size提供配置的批大小,它可以在内部的批中运行。属性的默认值是0,这意味着它将一次执行所有分区。不带REPAIR选项的MSCK命令可用于查找元数据mismatch metastore的详细信息。若手动删除 HDFS 上多个分区文件夹,且快速刷新分区,则需要在存在。对于不存在元数据的分区,会更新到Hive metastore。

2023-10-23 10:34:31 1025

原创 spark集成hive

spark.sql.warehouse.dir将默认值/apps/spark/warehouse 改为hive数据存储hdfs位置。2.Hive数据层建好,在Hdfs生成相应各层目录,后面配置Spark访问Hive的目录,要保证这个目录存在。2.修改spark配置: Advanced spark2-hive-site-overrid。hive.strict.managed.tables 的 true 改为 false。3. 修改hive配置: 到hive组件修改配置。spark集成hive。

2023-10-18 15:14:48 877

原创 hive往es映射表写数据报错

需要提前将jar上传至hdfs上的jars目录。需要加载hadoop和es的jar包。

2023-10-18 11:11:58 746

原创 hadoop组成

时代,Hadoop中的MapReduce同时处理业务逻辑运算和资源调度,耦合性较大;时代,新增了yarn,主要负责资源的调度,MapReduce仅负责运算;时代,在组成上没有变化;

2023-10-15 22:52:54 928

原创 大数据发展史

2006年3月份,MapReduce和Nutch Distributed File System(NDFS)被纳入到Hadoop项目,Hadoop正式诞生;2001年底Lucence成为Apache基金会的一个子项目,当时为了解决存储海量数据困难,检索海量速度慢,可以说Google是hadoop的思想之源;1)高可靠性:hadoop底层维护多个数据副本,即使某个计算或者存储出现故障,也不会丢失数据;3) 高效性:在MapReduce下,Hadoop工作是并行的,这样能加速任务的处理速度;

2023-10-13 23:38:10 512

原创 切换挂载盘

用户 进程号 权限 命令。文件系统 容量 已用 可用 已用% 挂载点。(有些情况下通过 lsof(8) 或 fuser(1) 可以。(有些情况下通过 lsof(8) 或 fuser(1) 可以。找到有关使用该设备的进程的有用信息)找到有关使用该设备的进程的有用信息)umount: /home:目标忙。umount: /home:目标忙。umount: /home:未挂载。可以看到问题已解决。

2023-10-10 09:36:09 134

原创 大数据概念

大数据是指无法使用常规软件工具在一定时间范围内进行捕捉、管理和处理的数据集合,需要使用新处理模式才能具有更强的决策力、洞察发现力和流程优化能力来适应海量、高增长率和多样化的信息资产(参考百度)。存储单位:最小的基本单位是bit,按顺序给出所有单位:bit、Byte、KB、MB、GB、TB、PB、EB、ZB、YB、BB、NB、DB。种类(Variety):数据类型的多样性(网络日志、音频、视频、图片、地址位置等信息);容量(Volume):数据的大小决定所考虑的数据的价值和潜在的信息;二、特征(4V1C)

2023-10-07 23:49:20 243

原创 大数据必备shell工具

'' 单引号不解析里面变量的值 "" 双引号解析里面变量的值 嵌套 :看谁在最外面 3)经常使用的场景。1) 常用的shell工具。c.与mysql的导入导出(数据同步)d.数仓层级内部(ETL开发)a.分发脚本(搭建集群)b.启停脚本(启动集群)

2023-10-07 23:18:31 84

原创 大数据必备linux高级命令

2)查看进程 查看端口号 查看磁盘使用情况 查看某个进程内存。

2023-10-07 23:16:01 50

原创 部署elasticsearch需要调整的系统参数

报错的意思是ElasticSearch拥有的内存太小,至少需要262144。查看命令sysctl -a|grep vm.max_map_count可以看到到vm.max_map_count = 65530,需要增加这个值。临时生效的方法:sysctl -w vm.max_map_count=262144。如果需要永久生效,需要在/etc/sysctl.conf文件下添加一行:vm.max_map_count=262144并重启,即可解决。如果未进行具体设置的话,会使用默认配置,如下查看。

2023-09-18 10:47:24 548

原创 spark临时文件较大问题处理

【代码】【无标题】

2023-09-15 13:27:01 512

原创 datanode无法启动问题

根据报错,需要对根目录进行授权操作。

2023-09-14 16:16:32 136

原创 ranger无法同步用户问题解决

1.首先就是定位日志,日志目录 cd /var/log/ranger/usersync。发现[cn=*多了一个[,去掉后,重启相关组件问题解决;保证下面红框中的密码正确,此密码为ldap管理员密码。重新核对密码,发现问题还未解决;

2023-08-31 16:43:47 375

原创 记录一次kafka内网向外网提供服务问题解决

发现还是无法连接,当时考虑到与之前搭建复用的部分只有zk了,然后就重新搭建了一个单节点的zk,将kafka配置改为新搭建的单节点zk后,网络居然通啦,问题解决.

2023-08-31 12:16:08 726

原创 docker-compose --version报错

直接在release中下载对应的linux发行版【docker-compose-linux-x86_64】下载完后将软件上传至 Linux的【/usr/local/bin】目录下。

2023-08-04 16:52:10 1212

原创 ElasticSearch可视化管理工具之ElasticHD

4.Dejavu 也是一个 Elasticsearch 的 Web UI 工具,其 UI界面更符合当下主流的前端页面风格,因此使用起来很方便。1.Elasticsearch-Head , Elasticsearch-Head 插件在5.x版本之后已不再维护,界面比较老旧。然后,我们浏览器访问下(如果你启动的服务想要别的电脑访问,就不要使用127.0.0.1 ,要使用局域网IP或者外网的固定IP)。5.ElasticHD 不依赖ES的插件安装,更便捷;导航栏直接填写对应的ES IP和端口就可以操作Es了。

2023-08-02 13:59:23 1625

原创 开源中文医疗大模型

中文医疗大模型是指通过利用自然语言处理技术和机器学习算法,在大量的医疗文本数据中预训练出来的模型。它可以实现对医疗信息的分类、摘要、问答系统、机器翻译等功能,是医疗行业中的重要工具。在医疗领域中,大规模语言模型(Large Language Model)具有广泛的应用潜力。

2023-06-17 22:57:43 1794

原创 Apache Doris 冷热分层技术如何实现存储成本降低 70%?|新版本特性

冷热分层是将冷热数据分别存储在成本不同的存储介质上

2023-06-17 22:43:05 687

原创 集群资源管理基础架构和工作机制

然后向集群RM申请运行一个application,RM返回要提交的JobApplication资源提交路径,主要放job.split(切片用来开启控制多少mapreduce),job.xml(参数配置),wc.jar(jar包即程序代码)。空闲的NodeManager就会领取调度队列中的Task任务,领走任务之后首先会创建容器container,任何任务的执行都在容器中执行,容器中有cpu,网络资源,磁盘,内存等。ReduceTask。Reduce执行结束后,MR会向RM注销自己,释放资源。...

2022-07-15 23:41:13 319 1

griffin安装文档

griffin安装文档及问题解决

2021-08-10

数据分析专题.docx

数据分析师日常工作 专题分析步骤 流量分析 路径分析 竞品分析 sql常见问题 临时需求处理

2020-09-17

hadoop高可用集群搭建手册.docx

hadoop2.6集群搭建手册,搭建的详细步骤,各种参数配置,配置文件配置,并对搭建的平台进行验证。

2020-04-17

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除