
hadoop
文章平均质量分 50
programmer_trip
这个作者很懒,什么都没留下…
展开
-
sql需求处理篇-统计指定某年中有多少个周一至周日
需求描述统计某一年中周一至周日分别有多少天with date_list as( select date_add("2020-01-01", a.pos) as dates from (select posexplode(split(repeat("m", datediff("2020-12-31", "2020-01-01")), "m"))) a)select datesfrom date_list ;----2020-01-012020-01-022020-0原创 2022-04-21 21:54:44 · 559 阅读 · 0 评论 -
hive性能调优
小文件过多的问题:小文件过多会会导致占用过多的内存资源,因为namenode在内存中维护文件系统树和最新的元数据信息,每个小文件都会占用150字节的内存,会影响查询效率导致小文件过多的原因: 使用动态分区,会产生很多零碎的小文件,插入分区表时最好指定分区字段的值; reduce过多会产生很多小文件,设置合理的reduce数减少小文件数量的措施:1 源头解决:在日增数据中,可以通过设置写入数据的参数,设置map端,reduce端输出时进行文件合并,设置一个输出文件大小均值原创 2021-07-26 15:29:52 · 619 阅读 · 0 评论 -
hive分区表新增字段并且新增字段的数据要写入当前和历史分区三种方法
由于之前的工作中就算是分区表中插入字段,也是只对当前数据负责,不需要管历史数据,所以没考虑过如果加字段之后,对历史分区如何插入数据的问题,直到一次面试,面试官问了这个问题,我决定用博客的形式记录下来,下面是加字段加不加cascade关键字的区别-- 内容准备test_partition.txt -- 历史分区没有新增字段1 zhangsan 1000 202101012 lisi 500 202101013 wangwu 6000 202101014 zhaoliu 4600 20210101原创 2021-05-09 17:00:23 · 3341 阅读 · 3 评论 -
hdfs面试题
大数据概念海量数据,具有高增长率、数据类型多样化、一定时间内无法使用常规软件工具进行捕捉、管理和处理的数据集合。大数据的特征 4VVolume:巨大的数据量Variety:数据类型多样化–(1):结构化的数据即有固定格式和有限长度的数据。–(2):半结构化的数据是一些XML或者HTML的格式的数据。–(3):非结构化的数据现在非结构化的数据越来越多,就是不定长、无固定格式的数据,例如网页、语音,视频等。Velocity: 数据增长速度快Value:价值密度低googl原创 2020-09-18 19:32:01 · 1295 阅读 · 0 评论 -
kafka集群的安装及启停
kafka_2.11-2.1.1.tgz 下载地址:http://kafka.apache.org/downloads.html安装步骤①解压到/usr/local 目录下tar -zxvf kafka_2.11-2.1.1.tgz -C /usr/localkafka的目录如下②更名(这一步如果存在多个版本的kafka,则最好保留版本号最为不同版本的区分)#进入/usr/local/kafka_2.11-2.1.1cd /usr/local/kafka_2.11-2.1.1mv kaf原创 2020-07-15 01:32:08 · 319 阅读 · 0 评论 -
Hive的开窗函数小结以及利用排名函数查询topN例子
开窗函数的关键字是 over,一般用在聚合函数的后面开窗函数与group by 的比较开窗函数用于计算基于组的某种聚合值,并且对每个组返回多行,但是group by 一个组只返回一行over() 不加参数,窗口大小为所有行over(partition by 字段) 窗口大小为所在分区的大小over(partition by 字段 order by 字段 [asc/desc]) 窗口大小为分区内的第一行一直到当前行over(distribute by 字段 sort by 字段 [asc/d原创 2020-07-01 21:20:11 · 1170 阅读 · 0 评论 -
hive自定义函数UDF案例
一·定义一个可以通过指定格式字符串变成map,然后通过第二个参数作为key,返回key对应的value的方法getValue示例:name=zhangsan&age=18&habits=eatpackage programmer.homework.day07.work.complex.map;import org.apache.hadoop.hive.ql.exec.Description;import org.apache.hadoop.hive.ql.exec.UDF;原创 2020-07-01 19:55:36 · 914 阅读 · 0 评论 -
hive的动态分区表的创建及数据的导入
动态分区流程:①建一个动态分区表②建一个临时表(分区字段作为临时表的表内字段)③将数据导入临时表中④根据临时表中的数据含有的动态分区字段的值进行数据加载并动态分区-- 设置属性set hive.exec.dynamic.partition.mode=nonstrict; <----非严格模式下可以都是动态分区,而严格模式下必须至少有一个静态分区set hive.exec.dynamic.partition=true; 开启动态分区-- 创建动态分区表studentdrop t原创 2020-06-26 17:48:56 · 3335 阅读 · 0 评论 -
hadoop本地模式运行mapreduce报错解决(Exception in thread main ExitCodeException exitCode=-1073741701)
目录环境:问题:问题解决流程环境:操作系统:Windows10> hadoop : hadoop 2.7.6> IDE : idea 2020.1> JDK : javac #环境:操作系统:Windows10hadoop : hadoop 2.7.6IDE : idea 2020.1JDK : javac 1.8.0_191问题:在idea中使用hadoop本地模式运行一个mapreduce任务,抛出如下异常:Exception in thread "mai原创 2020-06-23 00:34:47 · 3022 阅读 · 2 评论 -
使用vscode远程连接hdfs(linux系统上搭建的hdfs)
远程连接步骤1.检查是否已经安装SSH2.安装OpenSSH1.检查是否已经安装SSH以管理员身份运行cmd,输入命令sshC:\Windows\system32>ssh'ssh' 不是内部或外部命令,也不是可运行的程序或批处理文件----->说明没有系统中目前没有安装SSH2.安装OpenSSH①下载OpenSSH压缩包,下载地址如下:OpenSSH-Win64.zip②在C:\Program Files目录下创建文件夹OpenSSH③将压缩包赋值到C:\Prog原创 2020-06-19 13:16:28 · 2360 阅读 · 4 评论 -
hadoop的shell命令总结(实践总结)
查看命令 -lshdfs dfs -ls 路径 查看该路径下的文件和目录,只看一层hdfs dfs -ls -R 路径 递归查看该路径下的所有目录和文件hdfs dfs -ls -h 路径 将文件或目录的大小以人类能够理解的方式呈现 K M等hdfs dfs -ls -d 路径 仅显示当前路径的文件或目录的信息创建目录 -mkdirhdfs dfs -mkdir 路径 创建单个目录 (路径可以为多个参数)hdfs dfs -mkdir -原创 2020-06-13 21:28:05 · 1667 阅读 · 0 评论 -
时间服务器的搭建
搭建时间服务器前准备工作:1.先准备三个虚拟机hdp01,hdp02,hdp032.三台虚拟机使用NAT网络模式,采用静态ip,分别是192.168.10.101,192.168.10.102,192.168.10.103,这三台虚拟机中都已经都有这这三台虚拟机主机和ip的映射关系3.选择一台虚拟机作为时间服务器,这里选择hdp014.在hdp01虚拟机中安装ntp.x86_64#先查看hdp01中是否已经安装了ntp.x86_64yum list installed | grep ntp#如原创 2020-06-07 22:10:29 · 3185 阅读 · 0 评论 -
超详细的hadoop完全分布式集群的搭建
HDFS (hadoop distributed file system) : hadoop分布式文件系统环境:这是学习使用的,因为用虚拟机,通过root用户进行搭建一.创建一个虚拟机 had01 ,网络连接方式均为NAT模式搭建步骤:首先创建一个hdp01原创 2020-06-05 23:03:39 · 5205 阅读 · 6 评论