cdh
文章平均质量分 65
格格巫 MMQ!!
==========青春肆意飞扬,热爱经久不息。==============
展开
-
如何获取大数据平台 CDH 中 hive metastore db 的用户名和密码?
但由于hive metastore db 的用户名和密码,是在初次搭建集群时设置的,集群搭建完毕后正常使用过程中很少会使用到该用户名和密码,日常月久集群管理员可能会忘记最初设置的用户名和密码。大数据平台使用了来自 Cloudera 公司的 CDH 平台的小伙伴们,应该会留意到,从 CM 5.X版本开始(具体版本信息忘记了。方法二:通过 curl 访问 cm 提供的特定 restful 接口获取集群配置信息,包括 hive metastore 用户名和密码。该方法是 cdh 推荐的正确做法。原创 2022-08-20 15:19:03 · 2316 阅读 · 1 评论 -
各公司用户画像技术案例分享
关于用户画像的技术分享,分享给有需要的小伙伴,这里给的部分案例并非本人的作品,而是来自于其它优秀的公司和前辈,大部分来自于他们的技术分享及网络图片,如果不妥欢迎批评指正。01 什么是用户画像02 为什么需要用户画像03 如何构建用户画像04 用户画像的应用05 总结...原创 2022-04-24 16:32:24 · 459 阅读 · 0 评论 -
CDH6.3.2 启用Kerberos 认证
一. Kerberos概述强大的身份验证和建立用户身份是Hadoop安全访问的基础。用户需要能够可靠地“识别”自己,然后在整个Hadoop集群中传播该身份。完成此操作后,这些用户可以访问资源(例如文件或目录)或与集群交互(如运行MapReduce作业)。除了用户之外,Hadoop集群资源本身(例如主机和服务)需要相互进行身份验证,以避免潜在的恶意系统或守护程序“冒充”受信任的集群组件来获取数据访问权限。Hadoop使用Kerberos作为用户和服务的强身份验证和身份传播的基础。Kerberos是一种计算原创 2022-04-22 17:00:19 · 3915 阅读 · 0 评论 -
未授权访问漏洞总结
未授权访问漏洞可以理解为需要安全配置或权限认证的地址、授权页面存在缺陷导致其他用户可以直接访问从而引发重要权限可被操作、数据库或网站目录等敏感信息泄露。常见的未授权访问漏洞有以下这些:一、MongoDB 未授权访问漏洞漏洞信息(1) 漏洞简述:开启 MongoDB 服务时若不添加任何参数默认是没有权限验证的,而且可以远程访问数据库登录的用户无需密码。即可通过默认端口 27017 对数据库进行增、删、改、查等高危操作。刚安装完毕时MongoDB 都默认有一个 admin 数据库,此时 admin 数据库原创 2022-04-22 16:25:32 · 16414 阅读 · 0 评论 -
CDH集群安装出现问题参考
一、登录Cloudera Manager (http://192.168.201.128:7180/cmf/login)时,无法访问web页面针对此问题网上有较多的解决方案(e.g. https://www.cnblogs.com/zlslch/p/7078119.html), 如果还不能解决你的问题,请看下面的解决方案。登录MySQL数据库(或利用Navicat),会发现有一个mysql数据库(下图所示),在mysql数据库中有一个user表,将User="root"的两条记录进行删除select原创 2022-04-07 09:54:26 · 1531 阅读 · 0 评论 -
HDFS巡检、监控、调优、排障
1、巡检HDFS 为集群提供高可用性弹性存储服务,是集群的存储主体。每日早晚巡检HDFS 服务,包括HDFS 服务可用性、存储使用率、datanode 是否有故障盘等。1.1、HDFS 总体状态①HDFS 状态,如下的红色提示需要关注②HDFS 容量是否过阈值1.2、HDFS UI 巡检1.2.1、summary巡检对应上图所示标号,逐一进行解释:(1)HDFS 总文件数:此数值代表着 HDFS 存储内有多少文件,该数值的警告阈值为 5000W(2)HDFS 总存储容量:此数值原创 2022-03-25 15:02:43 · 5778 阅读 · 1 评论 -
HDFS中小文件的排查方式之分析fsimage 问题
cloudera manager监控页面HDFS大部分机器出现类似告警"存在隐患 : DataNode 有 xxxxxx 个块。 警告阈值:500,000 块。",cm给出的建议:这是 DataNode 运行状况检查,用于检查 DataNode 是否含有过多的块。如果 DataNode 含有过多的块,可能影响 DataNode 的性能。具有大量块数的 DataNode 将需要较大的 java 堆并且可能遇到较长时间的垃圾回收暂停。另外,大量块数可能表明存在许多小文件。不会为处理许多小文件而优化 HDFS,原创 2022-03-25 14:47:59 · 756 阅读 · 0 评论 -
CDH平台DATANODE数据块阀值参数设置
我们的一个生产环境的hadoop集群上25个datanode,几乎每个节点都报数据块阀值告警。例如其中一个节点:DataNode 有 565,596 个块。 警告阈值:500,000 块。集群上给出的建议如下:这是 DataNode 运行状况检查,用于检查 DataNode 是否含有过多的块。如果 DataNode 含有过多的块,可能影响 DataNode 的性能。具有大量块数的 DataNode 将需要较大的 java 堆并且可能遇到较长时间的垃圾回收暂停。另外,大量块数可能表明存在许多小文件。不会为原创 2022-03-25 14:46:50 · 3518 阅读 · 0 评论 -
使用 Thanos 实现多集群(租户)监控
Thanos 已成为目前 Kubernetes 集群监控的标准解决方案之一。它基于 Prometheus 之上,可以为我们提供:全局的指标查询视图近乎无限的数据保留期限包含 Prometheus 在内所有组件的高可用性在拟定监控方案之前,阅读一些成熟的 用户案例 是十分必要的。这些博文首先分析了各自团队的集群现状以及当前监控方案难以解决的痛点,再对目前流行的几种技术栈进行对比,最后介绍投入生产使用的部署方案,因此非常值得一读。不过,由于 Thanos 的组件众多,且每种组件都有较多参数需要配置。对原创 2022-03-21 10:27:08 · 2046 阅读 · 1 评论 -
对多租户的理解
多租户定义:多租户技术或称多重租赁技术,简称SaaS,是一种软件架构技术,是实现如何在多用户环境下(此处的多用户一般是面向企业用户)共用相同的系统或程序组件,并且可确保各用户间数据的隔离性。简单讲:在一台服务器上运行单个应用实例,它为多个租户(客户)提供服务。从定义中我们可以理解:多租户是一种架构,目的是为了让多用户环境下使用同一套程序,且保证用户间数据隔离。那么重点就很浅显易懂了,多租户的重点就是同一套程序下实现多用户数据的隔离。对于实现方式,我们下面会讨论到。在了解详细一点:在一个多租户的结构下..原创 2022-03-21 10:18:04 · 1330 阅读 · 0 评论 -
cdh集群中添加新主机
一、新加机器环境配置python首先得在新的主机环境中安装JDK,关闭防火墙、修改selinux、NTP时钟与主机同步、修改hosts、与主机配置ssh免密码登陆、保证安装好了perl和python。linux二、上传cloudera-manager文件到/opt目录,修改agent配置文件:webvi /opt/cm-5.7.0/etc/cloudera-scm-agent/config.inishellserver_host = Mastervimvim etc/cloudera-scm-ag原创 2022-03-09 14:50:41 · 1434 阅读 · 0 评论 -
cdh集群组件的原理介绍
1、Kafka是一种高吞吐量的分布式发布订阅消息系统;应用场景:(1) kafka可以作为"网站活性跟踪"的最佳工具;可以将网页/用户操作等信息发送到kafka中.并实时监控,或者离线统计分析等;(2) Kafka通常被用于可操作的监控数据。这包括从分布式应用程序来的聚合统计用来生产集中的运营数据提要。2、Impala是实时交互SQL大数据查询工具;3、jps进程对应的组件服务名称:(1)QuorumPeerMain:zookeeper服务;(2) HBase的服务器体系结构遵从简单的主从服原创 2022-03-09 14:49:43 · 1007 阅读 · 0 评论 -
cdh集群组件的原理+配置规则
1、Kafka是一种高吞吐量的分布式发布订阅消息系统;应用场景:(1) kafka可以作为"网站活性跟踪"的最佳工具;可以将网页/用户操作等信息发送到kafka中.并实时监控,或者离线统计分析等;(2) Kafka通常被用于可操作的监控数据。这包括从分布式应用程序来的聚合统计用来生产集中的运营数据提要。2、Impala是实时交互SQL大数据查询工具;3、jps进程对应的组件服务名称:(1)QuorumPeerMain:zookeeper服务;(2)HBase的服务器体系结构遵从简单的主从服务器原创 2022-03-09 14:47:22 · 575 阅读 · 0 评论 -
Hbase集群调优
一:hbase现有硬件资源的理论性能1.集群容量规划公式:优化调整,发挥硬件的最大优势;Disk Size / Java Heap=RegionSize / MemstoreSize * ReplicationFactor * HeapFractionForMemstore *2按照默认配置,RegionSize = 10G,对应参数为hbase.hregion.max.filesize;MemstoreSize = 128M,对应参数为hbase.hregion.memstore.flush.原创 2022-03-07 18:17:41 · 1224 阅读 · 0 评论 -
解决spark dataframe get 报空指针异常 java.lang.NullPointerException
Spark 编程读取hive,hbase, 文本等外部数据生成dataframe后,一般我们都会map遍历get数据的每个字段,此时如果原始数据为null时,如果不进行判断直接转化为string,就会报空指针异常 java.lang.NullPointerException示例代码如下:val data = spark.sql(sql)val rdd = data.rdd.map(record => { val recordSize = record.size for(i <-原创 2022-02-28 17:46:11 · 2022 阅读 · 0 评论 -
hbase如何保证数据完整性,丢失数据该如何解决
hbase的稳定性是近期社区的重要关注点,毕竟稳定的系统才能被推广开来,这里有几次稳定性故障和大家分享。第一次生产故障的现象及原因1 hbase发现无法写入2 通过hbck检测发现.META.表中出现空洞,具体log是:;Chain of regions in table … is broken; edges does not contain …3 此时读写失败修复方法:直接使用check_meta.rb重新生成.META.表并修补空洞,但是会引起数据丢失。因为引起该空洞的原因是某个region原创 2022-02-23 12:42:40 · 1336 阅读 · 0 评论 -
Hbase调优
对hbase调优首先需要对hbase架构有一个初步认知。hbase写数据在HBase 中无论是增加新行还是修改已有的行,其内部流程都是相同的。HBase 接到命令后存下变化信息,或者写入失败抛出异常。默认情况下,执行写入时会写到两个地方:1、预写式日志(write-ahead log,也称HLog);2、MemStore。HBase 的默认方式是把写入动作记录在这两个地方,以保证数据持久化。只有当这两个地方的变化信息都写入并确认后,才认为写动作完成。MemStore 是内存里的写入缓冲区,H原创 2022-02-16 20:11:39 · 1548 阅读 · 0 评论 -
Zookeeper常用命令
一、zk服务命令启动ZK服务: bin/zkServer.sh start查看ZK服务状态: bin/zkServer.sh status停止ZK服务: bin/zkServer.sh stop重启ZK服务: bin/zkServer.sh restart连接服务器: zkCli.sh -server 127.0.0.1:2181二、连接zk启动ZooKeeper服务之后,我们可以使用如下命令连接到 ZooKeeper 服务:eg、zookeeper-3.4.8\bin>zkCli原创 2022-02-07 22:13:15 · 3001 阅读 · 0 评论 -
hbase+hive+impala 报gc overhead limit exceeded
简单说一下情况,由于impala查询hbase效率低,准备把hbase里的数据拷贝到impala里,数据量应该在几十亿到上百亿,机器配置是13个节点,每个节点128G内存,总是在三十多亿数据的时候报gc overhead limit exceeded,尝试修改了一些参数还是报错,现在应该怎么办。是impala查询的时候报错吗?总的来说,还是内存方面配置的问题。比如取消内存限制set mem_limit=-1或则修改配置文件Impala Daemon 内存限制mem_limit=-1b单原创 2021-11-05 11:17:55 · 349 阅读 · 0 评论 -
10 entropy was available. 临界阈值:50。
问题CDH 集群,出现 Entropy 不良问题,原因是系统熵值低于 CDH 检测的阀值引起的, 所以解决思路是需要调大系统熵值。本文不阐述熵值问题,如需理解 entropy (熵值),需自行 google。解决查询系统熵值大小cat /proc/sys/kernel/random/entropy_avail安装 rng-tools 工具yum install rng-tools修改 /etc/sysconfig/rngd 文件,如没有该文件就创建cat /etc/sysconfig/rn原创 2021-10-27 16:02:11 · 403 阅读 · 1 评论 -
报错echo 0 > /proc/sys/kernel/hung_task_timeout_secs disables this message.
默认情况下, Linux会最多使用40%的可用内存作为文件系统缓存。当超过这个阈值后,文件系统会把将缓存中的内存全部写入磁盘, 导致后续的IO请求都是同步的。将缓存写入磁盘时,有一个默认120秒的超时时间。 出现上面的问题的原因是IO子系统的处理速度不够快,不能在120秒将缓存中的数据全部写入磁盘。IO系统响应缓慢,导致越来越多的请求堆积,最终系统内存全部被占用,导致系统失去响应。解决方法:根据应用程序情况,对vm.dirty_ratio,vm.dirty_background_ratio两个参数进行原创 2021-10-20 13:39:25 · 5978 阅读 · 0 评论 -
org.apache.hadoop.fs.FSError: java.io.IOException: 设备上没有空间 at org.apache.hadoop.fs.RawLocalFileSyste
解决方案:逐层目录查找最大文件夹du -h --max-depth=1确定最大目录为log目录,删除log目录下的所有日志文件rm -rf *造成此故障的原因有二:一是IO操作过于频繁,二是磁盘空间不足。如下是log文件记录的异常:复制代码2021-05-07 17:51:38.276 [ERROR] [http-bio-8180-exec-1] [com.yft.controller.SettleController:2236] ==MERCHANT结算凭证下载,执行异常java.io原创 2021-10-14 15:13:34 · 1010 阅读 · 0 评论 -
Hadoop多个集群之间的数据拷贝、hdfs快照管理、hdfs回收站管理
在我们实际工作当中,极有可能会遇到将测试集群的数据拷贝到生产环境集群,或者将生产环境集群的数据拷贝到测试集群,那么就需要我们在多个集群之间进行数据的远程拷贝,hadoop自带也有命令可以帮我们实现这个功能1、本地文件拷贝scpcd /kkb/softscp -r jdk-8u141-linux-x64.tar.gz hadoop@node02:/kkb/soft2、集群之间的数据拷贝distcpcd /kkb/install/hadoop-2.6.0-cdh5.14.2/bin/hadoop d原创 2021-10-09 21:26:23 · 444 阅读 · 0 评论 -
HDFS的Rebalance功能
HDFS中的数据按照一定策略分布在集群中的多个数据节点上,但在某些情况下,数据的分布也会出现不均衡的情况,比如说集群新增加了节点,在新增加的节点上就没有数据存在,虽说之后新增的数据会分配到新节点上,不过,对于已有数据,新节点和原有节点上的分布很不均衡,而且这还会导致在分配MapReduce任务的时候新机器分配不到可执行的任务分配,白白浪费了新增节点的计算能力。而对于一个真实的生产环境来说,随着数据量的增加而对集群逐步扩容是一个很常见的场景,为了解决这个问题,Hadoop设计了Rebalance功能。什么是原创 2021-10-09 20:28:04 · 1604 阅读 · 0 评论 -
该角色在之前的 5 分钟 中遇到 1 次意外退出。这包括由于 OutOfMemory 错误而导致
hbase:faladata02角色RegionServer意外退出报错:该角色在之前的 5 分钟 中遇到 1 次意外退出。这包括由于 OutOfMemory 错误而导致的 1 退出。 临界阈值:任意。原因是hbase启动的原始内存太小了,然后我们修改 "HBase RegionServer 的 Java 配置选项"参数参数:-Xmx256m -Xms256m -XX:MaxNewSize=128m -XX:NewSize=128m -XX:+UseParNewGC -XX:+UseConcMarkS原创 2021-09-29 11:29:52 · 1378 阅读 · 0 评论 -
不良 : There are 0 (Beeswax pool) 64 (Hive Server 2 pool) active client
在这里发现了一些端倪,注意这个total number of sessions:100,这个表示的是连接hive2的总的进程数。100没有再增长,推测可能有相关配置限制这个连接数。查看hive2的配置修改为10000后重启集群恢复原创 2021-09-26 16:41:03 · 1059 阅读 · 0 评论 -
那些安装CDH集群过程中踩过的坑......(比较全)
一、登录Cloudera Manager (http://192.168.201.128:7180/cmf/login)时,无法访问web页面针对此问题网上有较多的解决方案(e.g. https://www.cnblogs.com/zlslch/p/7078119.html), 如果还不能解决你的问题,请看下面的解决方案。登录MySQL数据库(或利用Navicat),会发现有一个mysql数据库(下图所示),在mysql数据库中有一个user表,将User="root"的两条记录进行删除select原创 2021-08-19 16:52:04 · 627 阅读 · 0 评论 -
CDH构建大数据平台-集群配置优化实战之HDFS集群调优
一.hdfs-default.xml1>.dfs.namenode.handler.countNameNode中用于处理RPC调用的线程数,即指定NameNode 的服务器线程的数量。NameNode有一个工作线程池用来处理客户端的远程过程调用及集群守护进程的调用,处理程序数量越多意味着要更大的池来处理来自不同DataNode的并发心跳以及客户端并发的元数据操作)。 对于大集群或者有大量客户端的集群来说,通常需要增大参数dfs.namenode.handler.count的默认值10。设置该值的一原创 2021-08-19 16:49:19 · 683 阅读 · 0 评论 -
无法在端口7180上设置cloudera manager Web - 群集安装
我正在使用具有以下主机名的ubuntu本地计算机并尝试设置cloudera Hadoop Distribution CDH5。chaithu@localhost:~$ hostnamelocalhostchaithu@localhost:~$ hostname -flocalhostchaithu@localhost:~$ ssh chaithu@localhostWelcome to Ubuntu 16.04.2 LTS (GNU/Linux 4.8.0-36-generic x86_64)原创 2021-08-14 11:17:15 · 251 阅读 · 0 评论 -
Cloudera安装未能检测到CentOS上的root特权我试图将新主机添加到CentOS集群中。安装失败,状态为“安装失败。无法检测root特权”。我知道Cloudera需要用户具有无密码特权(“需
我试图将新主机添加到CentOS集群中。安装失败,状态为“安装失败。无法检测root特权”。我知道Cloudera需要用户具有无密码特权(“需要Root访问您的主机才能安装Cloudera软件包。此安装程序将通过SSH连接到您的主机,并以root用户或另一位使用无密码sudo的用户身份直接登录/ pbrun特权成为root。”)。我该如何实现?我试图编辑/ etc / sudoers文件。编辑:在sudoers文件中,我添加了以下行:cdh ALL =(ALL):ALL #cdh是我的用户名就在定义“原创 2021-08-14 11:16:00 · 241 阅读 · 0 评论 -
sudo: Running a Command with root Privileges/sudo:使用root权限执行命令
p490/5 73“sudo (www.sudo.ws)”有root帐号但却没有root密码。一旦系统安装完毕,ubutu会锁定root帐号,且不提供root密码。这样能防止任何人都能以root权限登陆(除非你想在recovery mode(p512)下启动system)。但是,在 etc/passwd的第一行,这里会有一个用户名为root的用户。这个帐号/用户 拥有文件(命令行:ls -1/bin) 并能运行进程(命令行:ps - ef,然后查看输出的左栏的内容 )。root帐号对Ubuntu li原创 2021-08-14 11:14:31 · 1008 阅读 · 0 评论 -
linux – Cloudera安装无法检测到CentOS上的root权限
我试图将新主机添加到CentOS集群中.它安装失败&在状态中给出“安装失败.无法检测到root权限”.我知道Cloudera需要用户拥有无密码权限(“安装Cloudera软件包需要Root访问主机.此安装程序将通过SSH连接到您的主机,并以root用户身份或以无密码sudo的其他用户身份登录/ pbrun特权成为root.“).我怎样才能做到这一点?我试着编辑/ etc / sudoers文件.编辑:在sudoers文件中,我添加了行:cdh ALL=(ALL): ALL #cdh is my原创 2021-08-14 11:12:24 · 1333 阅读 · 0 评论 -
Spark 读取 Hbase 优化 --手动划分 region 提升并行数
一. Hbase 的 region咱们先简单介绍下 Hbase 的 架构和 region :web从物理集群的角度看,Hbase 集群中,由一个 Hmaster 管理多个 HRegionServer,其中每一个 HRegionServer 都对应一台物理机器,一台 HRegionServer 服务器上又能够有多个 Hregion(如下简称 region)。要读取一个数据的时候,首先要先找到存放这个数据的 region。而 Spark 在读取 Hbase 的时候,读取的 Rdd 会根据 Hbase 的原创 2021-06-13 23:36:53 · 1450 阅读 · 2 评论 -
并发下sftp连接报错——com.jcraft.jsch.JSchException: connection is closed by foreign host
当对单接口极限测试时,随着并发量上升,接口稳定性出现不稳定的情况,排查后台日志,发现报错在该接口调用sftp上传时出现问题(确切的是在初始化连接时失败)原因:系统SSH终端连接数配置过小,查看虚拟机该参数(该参数在/etc/ssh/sshd_config中配置,为MaxStartups),MaxStartups 默认设置是 10:30:100,意思是从第10个连接开始以30%的概率(递增)拒绝新连接,直到连接数达到100为止。解决方法:修改/etc/ssh/sshd_config中的MaxStar原创 2021-06-04 12:09:47 · 2244 阅读 · 0 评论 -
查看Linux系统版本信息的几种方法
一、查看Linux内核版本命令(两种方法):1、cat /proc/version2、uname -a二、查看Linux系统版本的命令(3种方法):1、lsb_release -a,即可列出所有版本信息:这个命令适用于所有的Linux发行版,包括RedHat、SUSE、Debian…等发行版。2、cat /etc/redhat-release,这种方法只适合Redhat系的Linux:[root@S-CentOS home]# cat /etc/redhat-releaseCentOS原创 2021-06-03 11:59:19 · 1201 阅读 · 0 评论 -
2.3 远程模式运行WordCountApp
一、提交Topology到Storm集群中所谓远程模式,就是将Topology提交到Storm集群中来运行。与Hadoop中map-reduce job一样,我们也是通过将代码打成一个jar包后,提交到Storm集群中运行。我们并不能直接打包,需要做一点修改。如果我们的代码中,引用了除了Storm-core之外的第三方依赖jar包,我们必须要将依赖的包也打包进去,否则就会爆出找不到类的异常。虽然我们这里没有引入其他的第三方依赖,不过我们这里依然打算这样做。有几个要注意的地方:1、务必保证Maven中原创 2021-06-01 10:19:53 · 182 阅读 · 0 评论 -
loaded (/etc/rc.d/init.d/network; bad; vendor preset: di
1、错误信息复制代码● network.service - LSB: Bring up/down networkingLoaded: loaded (/etc/rc.d/init.d/network; bad; vendor preset: disabled)Active: active (exited) since 三 2020-06-17 14:17:55 CST; 5min agoDocs: man:systemd-sysv-generator(8)Process: 21758 ExecS原创 2021-06-01 10:17:59 · 5322 阅读 · 2 评论 -
storm执行过程中出现EndOfStreamException
在执行storm过程中出现如下的异常,虽然不影响结果,但是还是求教为什么会出现这样的异常,该怎么解决呢?9782 [Thread-6-SendThread(localhost:2000)] INFO org.apache.storm.zookeeper.ClientCnxn - Session establishment complete on server localhost/127.0.0.1:2000, sessionid = 0x14a55e16c96000b, negotiated timeo原创 2021-05-21 16:18:53 · 653 阅读 · 0 评论 -
CDH启动和日志查看
目录:cdh集群启动cdh集群Linux日志查看cdh集群管理界面日志查看——————————————————————————————————cdh集群启动备注:公司CDH集群为CDH-5.7.1版本1)登录Master机器执行命令:/opt/cm-5.7.1/etc/init.d/cloudera-scm-server start2)登录集群所有agent机器执行命令:/opt/cm-5.7.1/etc/init.d/cloudera-scm-agent startcdh集群L原创 2021-05-21 13:33:49 · 1672 阅读 · 0 评论 -
HBase内部操作日志说明
版本:0.94-cdh4.2.1Split Region[regionserver60020-splits-1397585864985] INFO org.apache.hadoop.hbase.regionserver.SplitRequest - Region split, META updated, and report to master. Parent=test_table,|u:21419463|1389789100286|9749216794103914,1391785640492.8原创 2021-05-21 13:31:45 · 612 阅读 · 0 评论