大数据平台运维之Hive

本文演示了如何在大数据平台中操作Hive,包括启动Hive客户端,使用Hive命令查看HDFS文件,创建数据表并导入数据,查询特定条件的数据,以及统计分析数据。例如,创建xd_phy_course表并导入数据,查询Software_1403班级选修volleyball成员信息,以及统计各体育科目的选修人数等。
摘要由CSDN通过智能技术生成

启动大数据平台的Hive数据仓库,启动Hvie客户端,通过Hive查看hadoop所有文件路径(相关数据库命令语言请全部使用小写格式),将查询结果以文本形式提交到答题框中。

[root@master ~]# hive

WARNING: Use "yarn jar" to launch YARNapplications.

 

Logging initialized using configuration infile:/etc/hive/2.4.3.0-227/0/hive-log4j.properties

 

 

hive> dfs -ls;

Found 5 items

drwx------   -root hdfs          0 2017-04-20 18:56.Trash

drwxr-xr-x   - roothdfs          0 2017-05-07 05:59.hiveJars

drwx------   -root hdfs          0 2017-05-07 05:43.staging

drwxr-xr-x   -root hdfs          0 2017-05-07 05:43hbase-staging

drwxr-xr-x   -root hdfs          0 2017-04-20 18:56samll-file

 

27.使用 Hive工具来创建数据表xd_phy_course,将phy_course_xd.txt导入到该表中,其中xd_phy_course表的数据结构如下表所示。导入完成后,通过hive查询数据表xd_phy_course中数据在HDFS所处的文件位置列表信息,将以上操作命令(相关数据库命令语言请全部使用小写格式)和输出结果以文本形式提交到答题框。

新:

hive> create table xd_phy_course (stnamestring,stID int,class string,opt_cour string) row format delimited fieldsterminated by '\t' lines terminated by '\n' stored as textfile;

OK

Time taken: 4.067 seconds

 

hive> load data local inpath'/root/phy_course_xd.txt' into table xd_phy_course;

Loading data to table default.xd_phy_course

Table default.xd_phy_course stats: [numFiles=1,totalSize=89444]

OK

Time taken: 1.422 seconds

 

hive> dfs -ls /apps/hive/warehouse;

Found 1 items

drwxrwxrwx   -hive hdfs          0 2017-05-19 03:30/apps/hive/warehouse/xd_phy_course

 

28.使用Hive工具来创建数据表xd_phy_course,并定义该表为外部表,外部存储位置为/1daoyun/data/hive,将phy_course_xd.txt导入到该表中,其中xd_phy_course表的数据结构如下表所示。导入完成后,在hive中查询数据表xd_phy_course的数据结构信息,将以上操作命令(相关数据库命令语言请全部使用小写格式)和输出结果以文本形式提交到答题框。

hive> create external table xd_phy_course (stnamestring,stID int,class string,opt_cour string) row format delimited fieldsterminated by '\t' lines terminated by '\n' location '/1daoyun/data/hive';

OK

Time taken: 1.197 seconds

 

hive> load data local inpath '/root/phy_course_xd.txt'into table xd_phy_course;

Loading data to table default.xd_phy_course

Table default.xd_phy_course stats: [numFiles=1,totalSize=89444]

OK

Time taken: 0.96 seconds

 

hive> desc xd_phy_course2;

OK

stname                 string                                     

stid                   int                                         

class                  string                                     

opt_cour               string                                     

Time taken: 0.588 seconds, Fetched: 4 row(s)

 

 

29.使用Hive工具来查找出phy_course_xd.txt文件中某高校Software_1403班级报名选修volleyball的成员所有信息,其中phy_course_xd.txt文件数据结构如下表所示,选修科目字段为opt_cour,班级字段为class,将以上操作命令(相关数据库命令语言请全部使用小写格式)和输出结果以文本形式提交到答题框。

新:

hive> create table xd_phy_course (stnamestring,stID int,class string,opt_cour string) row format delimited fieldsterminated by '\t' lines terminated by '\n';

OK

Time taken: 4.067 seconds

 

hive> load data local inpath'/root/phy_course_xd.txt' into table xd_phy_course;

Loading data to table default.xd_phy_course

Table default.xd_phy_course stats: [numFiles=1,totalSize=89444]

OK

Time taken: 1.422 seconds<

  • 15
    点赞
  • 15
    收藏
    觉得还不错? 一键收藏
  • 1
    评论
### 回答1: Cloudera Manager是一款用于大数据平台的管理工具,它提供了一套集中化的控制台和工具,用于对大数据平台进行运维操作。 Cloudera Manager的主要功能包括集群管理、监控和警报、服务配置和升级、安全性管理等。在使用Cloudera Manager进行大数据平台运维操作时,可以按照以下步骤进行: 1. 创建集群:在Cloudera Manager控制台中,可以通过向导式界面创建新的集群。在创建过程中需要指定集群的名称、主机节点、角色和服务等。 2. 管理服务:通过Cloudera Manager可以管理各个服务的配置和状态。可以对服务进行启动、停止、重新启动等操作,并进行监控和警报设置。 3. 配置管理:Cloudera Manager提供了一套灵活的配置管理系统,可以对各个服务的配置进行修改和管理。可以根据需求对数据节点、NameNode、YARN资源管理器等进行配置优化。 4. 升级管理:Cloudera Manager支持集群的升级操作,可以通过控制台进行版本升级,同时提供了预检和回滚功能,确保升级的顺利进行。 5. 安全性管理:Cloudera Manager提供了一套完善的安全性管理系统,可以配置SSL加密和认证,管理Kerberos认证和授权,并且支持集成第三方安全工具。 6. 监控和警报:Cloudera Manager可以实时监控集群的状态和性能,并设置警报规则。可以查看CPU、内存、磁盘使用率、任务运行情况等,并及时发送警报邮件或短信。 7. 故障排除:Cloudera Manager提供了故障排除工具和日志管理。可以查看集群和服务的日志,定位和解决故障。 总而言之,Cloudera Manager是一款功能强大的大数据平台运维工具,通过它可以方便地管理和操作大数据平台的各个组件和服务。它提供了一套集中化的管理和监控系统,简化了大数据平台运维工作,提高了运维效率。 ### 回答2: Cloudera Manager是一个大数据平台运维工具,它提供了一种简化和自动化管理和监控大数据集群的方法。以下是Cloudera Manager大数据平台运维操作的指南: 1. 安装和配置:首先,需要下载并安装Cloudera Manager。安装完成后,打开Cloudera Manager Web界面,配置一些基本信息,如主机名、端口号和数据库等。 2. 集群管理:接下来,需要添加和管理集群。在Cloudera Manager中,可以通过“添加服务”来选择要安装和配置的各种组件,如Hadoop、Hive、HBase等。然后,将主机添加到集群中,分配相应的角色和服务。 3. 监控和调优:Cloudera Manager提供了强大的监控和调优功能,可以实时监控集群的健康状况和性能指标。可以设置警报,并快速诊断和解决潜在的问题。此外,Cloudera Manager还提供了性能调优建议和自动化调整资源配置的功能。 4. 管理和维护:Cloudera Manager简化了大数据平台的管理和维护工作。可以使用Cloudera Manager进行软件升级和补丁管理,以确保集群的安全和稳定性。此外,还可以执行备份和恢复操作,保护数据的安全性。 5. 安全和权限管理:Cloudera Manager提供了安全和权限管理功能,可确保集群和数据的安全性。可以配置用户、组和角色,并为不同的用户分配不同的权限。此外,还可以配置加密和防火墙等安全措施。 总之,Cloudera Manager是一个强大而全面的大数据平台运维工具,通过简化和自动化管理和监控任务,帮助管理员提高工作效率,保证集群的高可用性和性能。 ### 回答3: Cloudera Manager是一种用于大数据平台运维管理工具,通过简化操作和提供全面的监控功能,帮助管理员更轻松地管理和维护大数据集群。以下是Cloudera Manager的运维操作指南: 1. 安装和配置:首先需要安装Cloudera Manager,并按照指引配置相关参数,包括集群规模、节点配置、网络设置等。 2. 群集管理:Cloudera Manager提供了一种简便的方式来管理大数据集群。管理员可以通过Cloudera Manager界面添加、删除和管理集群中的节点,实现扩容和缩容的操作。 3. 监控和诊断:Cloudera Manager提供了丰富的监控指标和仪表盘,可以实时监控集群的各个组件和服务的状态。管理员可以通过查看日志和警报来检查并解决潜在的问题。 4. 资源管理:Cloudera Manager提供了资源管理和调度功能,可以根据集群的负载情况自动调整资源分配。管理员可以设置资源配额和优先级,确保集群资源的高效利用。 5. 配置管理:通过Cloudera Manager,管理员可以集中管理集群中的配置文件和参数。可以方便地修改和应用配置,确保集群的稳定性和一致性。 6. 升级和扩展:Cloudera Manager支持集群的升级和扩展。管理员可以使用升级向导来进行版本升级,并使用扩展向导来添加新的节点和服务。 7. 安全管理:Cloudera Manager提供了安全管理功能,可以实现对集群中数据的加密、权限控制和访问控制。管理员可以通过Cloudera Manager来配置和管理安全策略。 通过以上的运维操作指南,管理员可以更好地利用Cloudera Manager来管理和维护大数据平台,提高运维效率和系统稳定性。
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值