![](https://img-blog.csdnimg.cn/20201014180756780.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
大数据之CDH数仓
文章平均质量分 74
Knight_AL
这个作者很懒,什么都没留下…
展开
-
大数据之CDH数仓(23) | 集群管理之卸载CDH
停止所有服务1)停止所有集群服务2)停止CMservice停用并移除Parcels对我们安装的parcels,依次执行停用、仅限停用状态、从主机删除删除集群点击要删除的Cluster右侧的下拉箭头,点击删除卸载Cloudera Manager Server1)停止Cloudera Manager Server2)卸载Cloudera Manager Server[root@hadoop102 ~]# yum remove cloudera-manager-server卸载Cl原创 2020-10-15 20:01:14 · 950 阅读 · 0 评论 -
大数据之CDH数仓(22) | 集群管理之节点的添加和删除
准备新节点1)准备一台新的阿里云ECS服务器,并确保其和之前的集群位于同一地域,以及同一个安全组,主机名为hadoop105。(1)相同地域(2)相同安全组(3)主机名2)安装jdk,如果集群启用了Kerberos,还需安装Kerberos客户端,并做相应的配置。(1)安装jdk将jdk解压到/usr/java/目录下,并编辑/etc/profile,声明JAVA_HOME(2)安装Kerberos客户端,并作相应配置安装Kerberos客户端yum install -y krb5原创 2020-10-15 14:10:02 · 1839 阅读 · 0 评论 -
大数据之CDH数仓(21) | NameNode元数据备份
选择活动的NameNode进入安全模式选择保存Namespace进入活动namenode所在服务器备份[root@hadoop102 ~]# mkdir /root/namenode_back[root@hadoop102 ~]# tar -zcvf /root/namenode_back/nn_back.tar.gz /dfs/nn/备份MySQL元数据在MySQL所在节点运行以下命令:[root@hadoop102 ~]# mysqldump -u root -p -A >原创 2020-10-14 21:06:27 · 664 阅读 · 0 评论 -
大数据之CDH数仓(20) | 测试之邮件报警
点击Cloudera Management Service填写邮箱配置邮件服务器协议:smtp协议默认端口为25,但阿里云ECS默认禁封25端口,smtps使用465端口。邮件服务器主机名称:自己选择,可用smtp.163.com、smtp.qq.com等邮件服务器用户名:对应邮件服务器的邮箱账号,用此账号发邮件邮件服务器密码:邮件服务器用户名对应的密码邮件发件人地址:发件人地址一般可以与邮件服务器用户名一样邮件收件人: 接收报警信息的地址,可为任意可用邮件地址重启Cloudera Man原创 2020-10-14 18:05:23 · 925 阅读 · 0 评论 -
大数据之CDH数仓(19) | 测试之集群资源管理
CM提供了众多的资源KPI指标,以及丰富的可视化的资源分配、运维和监控界面。运维人员能在单一管理界面配置、监控和导出实时的系统集群资源状态、管理规则以及分用户、任务的使用状况。CDH 以及 CM 能同时满足动态以及静态的资源管理。动态资源池可以提供基于 YARN 的动态资源隔离能力,静态资源池可以提供基于 Linux 容器技术的静态资源隔离能力。动态资源池Yarn默认有三种调度器——FIFO、Capacity以及Fair Scheduler,CDH推荐使用Fair Scheduler。通过动态资源池原创 2020-10-14 09:46:21 · 873 阅读 · 0 评论 -
大数据之CDH数仓(18) | 测试之集群性能测试
DFSIO测试在Hadoop中包含很多的基准测试,用来验证集群的HDFS是不是设置合理,性能是不是达到预期,DFSIO是Hadoop的一个基准测试工具,被用来分析集群HDFS的I/O性能。DFSIO后台执行MapReduce框架,其中Map任务以并行方式读写文件,Reduce任务用来收集和汇总性能数字。可以通过这个基准测试对比吞吐量、IO速率的结果以及整个磁盘的原始速度,来确定你的集群是否得到了期待的性能。另外,可以通过这些测试中指标的严重偏差发现集群中一个或多个问题节点,结合监控系统一起使用能够更好的原创 2020-10-13 13:51:58 · 1727 阅读 · 0 评论 -
大数据之CDH数仓(17) | Sentry授权实战
Sentry授权实战使用Sentry进行授权管理,需要使用Sentry的管理员用户对其他用户进行授权,授权的方式有两种,一是通过HUE进行可视化操作,一是使用HIVE中的授权语句进行操作。Sentry实战之HUE1)配置HUE支持Sentry在HUE配置项中搜索“Sentry”,勾选Sentry。1)查看Sentry权限管理中的管理员组。在Sentry的配置项中搜索“管理员组”,其中包括hive、impala,只有当某用户所属组位于其中时,才可为其他用户授予权限。2)在Hive集群所有节点原创 2020-10-13 12:05:53 · 806 阅读 · 0 评论 -
大数据之CDH数仓(16) | Sentry概述+安装
Sentry概述cdh版本的hadoop在对数据安全上的处理通常采用Kerberos+Sentry的结构。kerberos主要负责平台用户的用户认证,sentry则负责数据的权限管理。Sentry是什么Apache Sentry是Cloudera公司发布的一个Hadoop开源组件,它提供了细粒度级、基于角色的授权以及多租户的管理模式。Sentry提供了对Hadoop集群上经过身份验证的用户和应用程序的数据控制和强制执行精确级别权限的功能。Sentry目前可以与Apache Hive,Hive Me原创 2020-10-12 15:24:52 · 1104 阅读 · 0 评论 -
大数据之CDH数仓(15) | Kerberos常见问题
目录Kerberos启动后台日志提示异常:No such file or directory - while initializing database for realm HADOOP.COMkinit通过keytab认证出现异常kinit认证时密码输入正确却提示密码错误创建数据库异常Zookeeper集群启动异常Hue启动,Kerberos Ticket Renewer起不来Kerberos启动后台日志提示异常:No such file or directory - while initializin原创 2020-10-12 13:42:14 · 1081 阅读 · 0 评论 -
大数据之CDH数仓(14) | 安全之Kerberos安全认证
Kerberos数据库操作登录Kerberos数据库原创 2020-10-11 22:21:18 · 1146 阅读 · 0 评论 -
大数据之CDH数仓(13) | Kerberos安装
server节点安装kerberos相关软件[root@hadoop102 ~]# yum install -y krb5-server krb5-workstation krb5-libs#查看结果[root@hadoop102 ~]# rpm -qa | grep krb5krb5-devel-1.15.1-37.el7_7.2.x86_64krb5-server-1.15.1-37.el7_7.2.x86_64krb5-workstation-1.15.1-37.el7_7.2.x86_6原创 2020-10-11 14:44:46 · 332 阅读 · 0 评论 -
大数据之CDH数仓(12) | Kerberos概述
什么是KerberosKerberos是一种计算机网络授权协议,用来在非安全网络中,对个人通信以安全的手段进行身份认证。这个词又指麻省理工学院为这个协议开发的一套计算机软件。软件设计上采用客户端/服务器结构,并且能够进行相互认证,即客户端和服务器端均可对对方进行身份认证。可以用于防止窃听、防止重放攻击、保护数据完整性等场合,是一种应用对称密钥体制进行密钥管理的系统。Kerberos不是k8s,Kubernetes简称k8s,是一个开源的,用于管理云平台中多个主机上的容器化的应用,跟我们今天学的Kerbe原创 2020-10-11 10:28:08 · 1004 阅读 · 0 评论 -
大数据之CDH数仓(11) | 数仓之即席查询数仓搭建
Impala安装添加服务选择Impala服务角色分配配置Impala启动Impala安装成功配置Hue支持Impala1)进入HUE配置页面,搜索“impala”,开启HUE中的impala服务2)搜索“hue_safety_valve.ini 的 Hue 服务高级配置代码段(安全阀)”,输入以下代码段,确定HUE支持impala搜索引擎[impala]server_host=hadoop102server_port=21050Impala基于Hue查询打开Hue进入impa原创 2020-10-10 22:06:49 · 558 阅读 · 0 评论 -
大数据之CDH数仓(10) | Oozie基于Hue实现GMV指标全流程调度
在Hue中创建Oozie任务GMV1)生成新的业务数据CALL init_data('2019-02-12',300,200,300,FALSE);2)将oozie调度脚本上传到HDFS[root@hadoop102 bin]# sudo -u hive hadoop fs -mkdir /user/hive/bin/[root@hadoop102 bin]# cp /root/bin/*.sh /var/lib/hive/[root@hadoop102 bin]# sudo -u hive原创 2020-10-10 21:31:16 · 296 阅读 · 0 评论 -
大数据之CDH数仓(9) | 数仓之业务数仓搭建
业务数据生成建表语句1)通过SQLyog创建数据库gmall2)设置数据库编码3)导入建表语句(1建表脚本)选择->1建表脚本.sql4)重复步骤3的导入方式,依次导入:2商品分类数据插入脚本、3函数脚本、4存储过程脚本。生成业务数据1)生成业务数据函数说明init_data ( do_date_string VARCHAR(20) , order_incr_num INT, user_incr_num INT , sku_num INT , if_truncate BOOLEAN原创 2020-10-10 16:21:08 · 815 阅读 · 0 评论 -
大数据之CDH数仓(8) | 数仓之用户行为数仓搭建
用户行为日志生成1)将log-collector-1.0-SNAPSHOT-jar-with-dependencies.jar上传到hadoop102的/opt/module目录2)分发log-collector-1.0-SNAPSHOT-jar-with-dependencies.jar到hadoop103[root@hadoop102 module]# xsync log-collector-1.0-SNAPSHOT-jar-with-dependencies.jar3)在/root/bin目原创 2020-10-09 22:49:44 · 1178 阅读 · 1 评论 -
大数据之CDH数仓(7) | HUE用户管理
目录HUE使用概述HUE用户管理HUE使用概述1)HUE来源 HUE=Hadoop User Experience(Hadoop用户体验),直白来说就一个开源的Apache Hadoop UI系统,由Cloudera Desktop演化而来,最后Cloudera公司将其贡献给Apache基金会的Hadoop社区,它是基于Python Web框架Django实现的。通过使用HUE我们可以在浏览器端的Web控制台上与Hadoop集群进行交互来分析处理数据。2)HUE官网及使用者官网网站:http:原创 2020-10-09 17:53:14 · 3360 阅读 · 1 评论 -
大数据之CDH数仓(6) | 数仓搭建环境准备
Flume安装部署1)添加服务2)选择Flume3)选择依赖4)选择部署节点5)完成Sqoop安装部署1)添加服务2)选择Sqoop3)选择部署节点4)完成配置Hadoop支持LZO1)点击主机,在下拉菜单中点击Parcel2)点击配置3)加上gplextras parcel库的url本地url:http://hadoop102:8900/cloudera-repos/gplextras6/6.2.1/parcels/远程url: https://arc原创 2020-10-09 17:52:52 · 426 阅读 · 0 评论 -
大数据之CDH数仓(5) | 数仓之CDH
Cloudera Manager提供了十分方便的安装向导,大大简化了CDH的安装和部署。选择商业版本1)欢迎页面2)用户协议3)选择免费版部署CDH集群1)欢迎页面2)集群命名3)选定集群物理节点4)添加本地parcel库5)等待parcel的下载、分配、解压和激活6)检查集群网络环境7)选择要安装的CDH组件,选择自定义安装8)选择需要安装的组件,如下9)CDH各组件角色分布10)数据库连接测试11)各组件基本设置,使用默认即可12)等原创 2020-10-08 09:50:51 · 412 阅读 · 0 评论 -
大数据之CDH数仓(4) | CM安装部署
安装JDK(三台)1)在hadoop102创建目录一个安装包mkdir -p /export/software2)用xshell将jdk-8u144-linux-x64.tar.gz上传至hadoop102,并解压到/usr/java目录下。tar -zxvf jdk-8u144-linux-x64.tar.gz -C /usr/java/3)配置JAVA_HOME环境变量(1)打开/etc/profile文件vim /etc/profile在profile文件末尾添加JDK路径#原创 2020-10-07 21:24:58 · 923 阅读 · 0 评论 -
大数据之CDH数仓(3) | CM部署准备
连接阿里云服务器使用xshell连接(公有ip)修改hosts文件(私有ip)记得在hadoop103,104配置注意:这里每个人不一样,ip填写的是私有ip,做完后ping一下。SSH免密登录配置hadoop102对hadoop102、hadoop103、hadoop104三台服务器免密登录。CDH服务开启与关闭是通过server和agent来完成的,所以这里不需要配置SSH免密登录,但是为了我们分发文件方便,在这里我们也配置SSH。1)生成公钥和私钥:[root@hadoop1原创 2020-10-07 19:02:45 · 583 阅读 · 1 评论 -
大数据之CDH数仓(2) | 阿里云服务器准备
注册阿里云账户https://www.aliyun.com/?utm_content=se_1000301881原创 2020-10-06 16:00:26 · 488 阅读 · 0 评论 -
大数据之CDH数仓(1) | CM简介
CM简介Cloudera Manager是一个拥有集群自动化安装、中心化管理、集群监控、报警功能的一个工具,使得安装集群从几天的时间缩短在几个小时内,运维人员从数十人降低到几人以内,极大的提高集群管理的效率。CM架构...原创 2020-10-05 20:45:37 · 1411 阅读 · 0 评论