自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(33)
  • 收藏
  • 关注

原创 CDH集群离线搭建(适用内网)——linux系统环境配置①

全是干货,没有一句废话

2024-03-09 08:00:00 756

原创 cdp集群主节点根目录磁盘扩容

挂载磁盘名字为vda,磁盘容量有80G,现在磁盘使用量为vda下面三个分区vda1,vda2,vda3容量之和,也就是说vda这块磁盘还有大约40G的容量未使用,现在增加一个分区,在把根目录挂上去就可以实现对根目录扩容了。Error: 备份 GPT 表不像应该的那样出现在磁盘的末尾。是逻辑卷的路径,关联的 XFS 文件系统扩展到逻辑卷的整个大小.是逻辑卷的路径,关联的 XFS 文件系统扩展到逻辑卷的整个大小.可以看到,根目录容量只有37G,现在对根目录进行扩容。,并将其大小增加了100% 的可用空间。

2024-04-23 18:00:00 395

原创 Apache Spark 的基本概念和在大数据分析中的应用

凭借其高速和可扩展的计算能力,Spark 可以处理包括数据清洗、数据预处理、数据仓库和数据实时分析等多种任务。(Resilient Distributed Datasets,简称 RDD):RDD 是 Spark 的核心抽象,它是一个可分区、可并行处理的容错数据集。Spark Streaming 支持从多种数据源实时获取数据,并提供了类似于 RDD 的抽象,使开发者可以对数据进行流处理和实时分析。它被设计为一个高速、通用、可扩展的数据处理引擎,可以用于处理大规模、复杂的数据集。

2024-04-19 19:40:27 408 1

原创 cdp集群Hbase组件HRegionServer服务停止原因以及排查

前言:重启集群后某一节点HRegionServer服务停止,重启前所有服务均正常。去查看对应节点后台,发现ntp服务正常启动,但是没有与主节点进行时间同步。怀疑是主节点ntp服务没启起来,去主节点查看ntp是active状态,

2024-04-19 17:47:18 690 1

原创 Impala Daemon无法启动问题记录(UNIX 域套接字路径不存在)

上午11点19:08.002分 ERROR cc:291 Aborting Impala Server startup due to improper configuration. Impalad exiting.错误信息提到了 dfs.domain.socket.path 的父目录不可读或不可执行。前言:集群扩节点,新加节点的Impala Daemon起不起来了。去hdfs配置里查找dfs.domain.socket.path。去后台,找没有启动的Impala Daemon节点,创建这个目录。

2024-04-17 19:16:52 270

原创 zookeeper中的znode节点的一些功能和应用

在配置 Hive 的高可用性(High Availability,HA)环境时,ZooKeeper 可以用于管理和协调 Hive 的主从节点,确保 Hive 元数据服务的可用性和一致性。ZooKeeper 是 HBase 集群的协调服务,它存储了 HBase 集群的状态信息、表结构信息、RegionServer 的信息。zookeeper的结构为树状结构,其每个树状节点中存储着其他组件的元数据。有着独特的选举机制,一般在中小型集群中,zookeeper一般装在。

2024-04-07 11:54:51 740

原创 Impala Daemon无法启动问题记录(25000端口被占用)

前言:集群主节点根目录内存快爆了,开始清理主节点内存重启组件,发现Kerberos认证的角色用户都过期了,又重新生成了一下角色,在启动impala组件过程中,其中一个Impala Daemon组件启动失败。

2024-04-07 10:06:06 875

原创 该主机与 Cloudera Manager Server 失去联系的时间过长。 该主机未与 Host Monitor 建立联系

该主机与 Cloudera Manager Server 失去联系的时间过长。该主机未与 Host Monitor 建立联系这个去集群主机cm界面上看会出现这个错误。可能和集群时间不同步有关,也有可能和agent服务有关。

2024-04-04 10:46:33 1155

原创 cdp集群扩容节点磁盘挂载失败原因和解决办法

可以看到本该挂载到/data5目录的磁盘sdf1被挂到了/data1上面。磁盘重新卸载下去后,重新去 /etc/fstab文件配置一下。所以现在需要把/disk1目录下挂载的所有磁盘卸载下去。结果挂载的五块磁盘全部挂载在/disk1 目录当中。发现之前在设置挂载点的时候挂载目录忘记更改了。在最后一步挂载时,发现有块磁盘没挂载上去。之前按照文档挂载磁盘。属于磁盘挂载重复错误。

2024-04-04 10:05:21 219

原创 CDH集群hive初始化元数据库失败

链接的数据库和用户用的和刚开始初始化cm用的数据库用户是同一个,初始化失败。单独搞一个数据库用户给hive。链接的数据库和用户没给管理员权限。给用户DBA的权限。

2024-03-28 17:00:11 926 1

原创 cdp集群yarn组件ResourceManager无法启动问题记录

ResourceManager 在启动过程中遇到了 Zookeeper 认证权限的问题。具体来说,出现了 “NoAuthException: KeeperErrorCode = NoAuth for /rmstore/ZKRMStateRoot”。前言:cdp集群装了Kerberos认证,在进行权限集成时集群所有组件高可用状态失效,yarn组件ResourceManager停止。我又去zk上面看看打算把znode节点删除试试,结果又出幺蛾子了。zookeeper要我权限认证,现在连最基本的ls都看不了了。

2024-03-20 11:09:56 795 1

原创 cdp集群中hive插入语句任务执行报错

编译语句时出错:失败:执行错误,从org.apache.hadoop.hive.ql.exec.tez返回代码2。Vertex的任务资源超出了集群容器的能力,Vertex=Vertex_1710760432_005_1_00[映射1],请求的任务资源=<memory:4096,vCores:1>,集群最大容器容量=<memory:3348,vCore:4>最近新搭建了一套cdp测试集群,在hue界面测试hive语句时,建表正常,但是出现插入数据失败问题。修改后,重启集群使配置生效。

2024-03-19 10:14:37 469 1

原创 CDH集群离线搭建(适用内网)——cdh集成ldap⑭

此部分为在cm界面上进行操作的步骤,关于ldap安装的部分可直接参考之前的文章。

2024-03-16 13:00:00 209

原创 CDH集群离线搭建(适用内网)——OpenLdap与SSH集成⑬

【代码】CDH集群离线搭建(适用内网)——OpenLdap与SSH集成

2024-03-16 09:00:00 174

原创 CDH集群离线搭建(适用内网)——sssd安装和配置⑫

修改/etc/sssd/sssd.conf文件,在执行authconfig命令时会默认生成,如果文件不存在则新建。下面这几个文件配置都会更改,做完上面的步骤自己可以排查一下。执行如下命令配置并启用sssd服务。修改sssd.conf文件权限。启动相关服务并加入系统自启动。

2024-03-15 13:00:00 208

原创 HDFS中更改副本数不生效及解决办法

之前CDH集群的副本数为1,后续更改为3后,发现不生效。只有更改后,再上传数据表,此时副本数才会生效,为3副本。HDFS中更改副本数不生效及解决办法。在单副本时上传的数据表,后续无法生效。这个和HDFS的副本存储机制有关。集群版本:CDH6.3.2。系统版本:centos7。

2024-03-15 08:00:00 191

原创 CDH集群离线搭建(适用内网)——LDAP安装和配置⑪

【代码】CDH集群离线搭建(适用内网)——LDAP安装和配置⑪。

2024-03-14 13:00:00 600

原创 CDH集群离线搭建(适用内网)——sentry集成配置⑩

在hive配置中搜索:Hive Metastore Server Default Group,然后[勾选] Hive Metastore Server Default Group。点击hdfs组件,点击配置,在搜索框中搜索:“启用访问控制列表"或者"dfs.namenode.acls.enabled”,然后[勾选] HDFS (Service-Wide);点击hue服务,点击配置,在搜索栏中搜索:Sentry,然后Sentry Service [勾选] Sentry。保存并重启HDFS服务。

2024-03-14 08:00:00 265

原创 CDH集群离线搭建(适用内网)——Kerberos安装配置及使用⑨

修改/etc/krb5.conf文件修改/var/kerberos/krb5kdc/kdc.conf文件,修改EXAMPLE.COM为自己公司的域名。修改/var/kerberos/krb5kdc/kadm5.acl文件,修改EXAMPLE.COM为自己公司的域名。在cm界面开启Kerberos认证......

2024-03-13 13:00:00 889 1

原创 CDH集群离线搭建(适用内网)——impala高可用配置⑧

按照这篇内容操作你可以实现什么:在设置的两台机器上可以成功启动Haprox和Keepalived进程和服务,并连接运行

2024-03-13 08:00:00 206

原创 CDH集群离线搭建(适用内网)——集群的高可用配置⑦

hdfs高可用配置和操作,yarn高可用操作,sentry高可用配置和操作

2024-03-12 13:00:00 154

原创 CDH集群离线搭建(适用内网)——集群组件界面安装⑥

1.登录CM管理界面,输入用户名和密码(admin/admin),继续这里根据具体需求进行选择进入下一个界面,点击继续集群名称,根据需求改,直接编辑即可这里要把需要的主机ip纳入管理,在主机名称中输入ip进行搜索,选中所有主机后点击继续这里选择自定义存储库 http://172.21.35.243/cm6.3.1/选择更多选项,删除多余的远程 Parcel 存储库 URL,添加parcel的远程安装库为:http://172.21.35.243/cdh6.3.2/点击保存更改。

2024-03-12 09:00:00 584

原创 Linux系统集群磁盘挂载

干货,适用于linux系统中已经安装磁盘,但尚未挂载的情况

2024-03-11 10:05:35 273 1

原创 CDH集群离线搭建(适用内网)——httpd服务、cm服务安装,yum源配置⑤

两种方法选一种即可1.yum安装2.离线安装。

2024-03-11 09:54:51 224 4

原创 CDH集群离线搭建(适用内网)——mysql离线安装配置④

关于mysql主从最好在cm安装之前就做好。

2024-03-10 15:00:00 334

原创 CDH集群离线搭建(适用内网)——jdk离线安装③

jdk-8u161-linux-x64.tar.gz需要自行上传。rz命令上传jdk文件。上传完成后进行下面操作。

2024-03-10 10:00:00 194

原创 CDH集群离线搭建(适用内网)——NTP时钟同步配置②

授权192.168.1.0-192.168.1.255网段上的所有机器可以从这台机器上查询和同步时间。#添加内容如下,用于保证硬件时间与系统时间一致。#在已经注释下的配置增加一些配置。#列出上层NTP服务器的连接状态。#在已经注释下的配置增加一些配置。#查看chrony服务是否存在。server 服务端ip。

2024-03-09 12:00:00 559 1

原创 CDP(CDH)集群修改主机名(主机ip)

实现目标:将CDP集群中所有主机的名字XXXX更改为XXXX.hadoop.com步骤:进入cm界面,把所有服务全部关闭,cm服务也关闭

2024-03-08 13:57:55 406 3

原创 shell脚本实现:截取HDFS目录下的hive仓库里的库名和表名

因为脚本运行过后会产生好几个中间文件,我把代码优化了一下。截取HDFS目录下的hive仓库里的库名和表名。直接在命令行中运行以下命令即可。方法一:shell脚本实现。打开data.txt文件。这是运行后面的展示效果。每个库名对应下面的表名。

2024-03-08 10:51:56 130

原创 hdfs HA 出现Cannot find any valid remote NN to service request

所有的nameNode 都是standby状态,在所有的nameNode上执行,停掉HDFS的服务,备份好数据。然后重启HDFS服务即可。版本:cdp7.1.7。

2024-03-07 14:15:52 243 1

原创 cm界面hdfs组件报错丢失块解决办法

1.查看活跃节点namenode界面,显示存在226块丢失,并依次在界面显示这里会显示损坏块的路径,记下来到后面会用到。2.这些坏块就是损坏的文件,自己可以在web ui界面上可以看到,文件路径就是前面记下来的。2.进入集群后台查看(去对应的active namenode节点查看)这些块本身已经损坏,虽然hdfs有修复损坏块副本机制,可以自主清理。这里删除的是hdfs目录里的文件,并非是linux系统文件。如果误删文件,可以去回收站自行恢复文件。如果命令失败显示权限问题,无法删除。2.1.查看丢失文件块。

2024-03-07 13:39:40 276 1

原创 1406 - Data too long for column ‘deintro‘ at row 1报错原因以及解决办法

今天用MySql数据库打算插入几个数据,大约有几千个汉字左右,插入的时候出现了这个错误。1406 - Data too long for column ‘deintro’ at row 1问题原因:开始设置的数据类型为varchar,要输入的数据较多插入的数据比数据类型大,会被截断时,就会报错,无法插入。解决办法:后来我把varchar数据类型换成了mediumtext。这样就不会报错了。新的问题:问题一mediumtext类型长度无法更改,数据表中长度为0,改成别的值保存仍为0。答

2021-06-04 22:53:18 3438

原创 在java中print与println区别

print输出的内容不会换行println输出的内容会自动换行System.out.print("张三\n");System.out.println("张三");这俩输出的效果是一样的

2021-03-12 19:41:21 142

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除