数据治理
文章平均质量分 56
*星星之火*
从菜鸟到专家,陪同大家一起成长
展开
-
hive select * 语法中去掉部分列
hive表有很多列,大部分列需要,其中一列不需要,例如分区表的dt字段不要,例如1000列中去掉1列原创 2022-03-23 18:06:09 · 7781 阅读 · 0 评论 -
小文件治理之hive文件合并:hive小文件合并的三种方法
合并小文件太多的方法: 一、concatenate方法二、insert overwrite方法总结 三、insert overwrite select *原创 2022-03-23 15:08:43 · 15367 阅读 · 1 评论 -
小文件治理之hadoop集群监控:文件目录个数 获取的三种方法
系列文章目录提示:这里可以添加系列文章的所有文章的目录,目录需要自己手动添加例如:第一章 Python 机器学习入门之pandas的使用提示:写完文章后,目录可以自动生成,如何生成可参考右边的帮助文档文章目录系列文章目录前言一、二、jmx获取二、使用hadoop fs -count 获取三、代码实现总结前言提示:这里可以添加本文要记录的大概内容:例如:随着人工智能的不断发展,机器学习这门技术也越来越重要,很多人都开启了学习机器学习,本文就介绍了机器学习的基础内容。提示:以下是本篇文章正原创 2022-03-15 08:06:38 · 899 阅读 · 0 评论 -
小文件治理之hadoop集群监控:Jmx上的TotalFiles其实是TotalFilesAndDirectory 总文件+总目录数
文章目录前言一、50070页面,这2个数字的意思二、验证方法步骤1.停止集群,记录目前的数据步骤2. put一个有3个block的文件看看,对比变化总结前言50070页面上的文件数和block数,通过jmx获取时,看字面上的意思对不上,所以,专门写个文章分析一下。提示:以下是本篇文章正文内容,下面案例可供参考一、50070页面,这2个数字的意思第一个是文件数+目录数的总和,目前是66236,第二个数是65530个block,block的个数(不包含副本)二、验证方法**验证方法:**停止原创 2022-03-09 14:20:56 · 2428 阅读 · 0 评论 -
小文件治理之hadoop集群监控: hdfs jvm数据获取
文章目录前言一、获取jvm使用情况信息二、获取的所有信息三、获取指定信息方法四、更多namenode的参数信息总结前言怎样爬取50070页面的信息,一开始想写个爬虫,后来发现,可以通过接口调用,节省了很多麻烦一、获取jvm使用情况信息}[root@hadoop101 ~]# curl hadoop101:50070/jmx?qry=java.lang:type=Memory{ "beans" : [ { "name" : "java.lang:type=Memory", "原创 2022-03-08 19:46:13 · 875 阅读 · 0 评论