![](https://img-blog.csdnimg.cn/20201014180756916.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
Hadoop大数据入门
文章平均质量分 59
以浅显的方式介绍Hadoop的分布式存储计算思想和实例,以及相关生态的hive,spark等常用组件,建立一个初步的认识,偏重感性认识,不会涉及过多的细节实现。
shy_snow
这个作者很懒,什么都没留下…
展开
-
hive练习题
{HIVE_HOME}/bin/hive启动hive客户端或使用。hive建分区表,分桶表,内部表,外部表,分桶表原创 2023-03-10 17:57:47 · 112 阅读 · 0 评论 -
提交yarn任务报错空指针org.apache.hadoop.mapreduce.v2.app.MRAppMaster: Error starting MRAppMaster
看了下这个空指针MRClientService.getHttpPort(MRClientService.java:177)在yarn-site.xml中配置了yarn.resourcemanager.webapp.address之后就正常了。看网上说是yarn.resourcemanager.webapp.address没配置导致没能获取到port。xxx1主机名的值从yarn.resourcemanager.hostname中找,如果是HA那么是类似这样的。原创 2023-03-03 17:09:04 · 650 阅读 · 0 评论 -
hadoop shell 练习题
利用Hadoop提供的Shell命令完成以下任务(路径中的xxx替换为自己的用户名):1、显示HDFS中指定的文件的读写权限、大小、创建时间、路径等信息;示例: hdfs dfs -ls /2、从HDFS中下载指定文件;示例: hdfs dfs -get /tmp/train/wordcount/in/input.txt ./myinput.txt3、在HDFS中指定位置创建文件夹;将刚才下载的myinput.txt文件中增加自己的用户名后,上传到HDFS中刚才创建的目录;xxx替换为原创 2023-03-02 19:30:00 · 2142 阅读 · 0 评论 -
hive连线题,hive建分区表,分桶表,内部表,外部表
{HIVE_HOME}/bin/hive启动hive客户端外部表使用external关键字,不维护数据文件;分区表使用PARTITIONED by子语句,分区是表目录下的子目录,起到水平拆分的作用;分桶使用CLUSTERED BY子语句指定分桶字段,按字段哈希将表文件拆分为多个小的表文件即桶文件;单个的桶就是表目录下的单个表文件。原创 2023-02-27 03:26:23 · 405 阅读 · 0 评论 -
hadoop命令行查看hdfs容量剩余
hadoop dfsadmin -report 也可以通过浏览器访问50070端口查看。原创 2023-01-19 16:48:04 · 3370 阅读 · 0 评论 -
hadoop大数据入门HDFS、MapReduce、YARN的个人通俗理解
简要介绍了hadoop最重要的基础HDFS分布式存储和MapReduce分布式计算。HDFS是一个主从架构的集群,由一个主节点NN进行目录维护并统一处理用户读写请求, 并把数据按块分到多个数据节点DN上。MapReduce提供了统一的mapper、reducer接口实现将计算分为多个并行的子任务并可进行统计合并出最终结果。原创 2022-12-29 18:22:15 · 590 阅读 · 0 评论