![](https://img-blog.csdnimg.cn/20201014180756925.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
大数据学习
小蚂蚁爱吃肉
学生界的菜鸟
展开
-
sql 用like 匹配多个关键词
新环境中可能要更改写法 为 REGEXP_LIKE(字段名,'关键词1|关键词2')一般会用 字段名 regexp_like '关键词1|关键词2'日常还会用到 regexp_like。除了like 的用法。原创 2024-03-21 14:32:43 · 436 阅读 · 0 评论 -
SQL用正则表达式替换 括号以及括号内的内容为空
SQL用正则表替换括号以及括号内的内容为空原创 2022-09-23 09:46:37 · 3109 阅读 · 1 评论 -
Hive 中的爆炸函数( lateral view 与 explode 用法)
hive中的爆炸函数( lateral view 与 explode详解),本篇文章主要针对实际应用中的情况,进行讲解原创 2022-08-25 15:24:10 · 5709 阅读 · 0 评论 -
DBeaver中如何调整SQL编辑器的字体大小
DBeaver中如何调整SQL编辑器的字体大小原创 2022-06-08 17:26:19 · 19010 阅读 · 2 评论 -
查看创建的hive表对应的hdfs文件路径
查看创建的hive表对应的hdfs文件路径原创 2022-02-26 09:56:40 · 1943 阅读 · 0 评论 -
Hive 中类SQL语言中的 oder by,gruop by的区别
order by 是按字段排序group by 是按字段分组,即select 字段必须是“分组依据字段”order by 从英文翻译出发,就是行的排序方式,默认的为升序。 order by 后面必须列出排序的字段名,可以是多个字段名。group by 从英文翻译理解,就是分组。必须有“聚合函数”来配合才能使用,使用时至少需要一个分组标志字段。关于“聚合函数”,简单的理...原创 2019-10-29 09:50:27 · 360 阅读 · 0 评论 -
大数据学习之Hadoop任务输出到多个目录中
有可能使 Hadoop 任务输出到多个目录中吗?如果可以的话,怎么做?1)可以输出到多个目录中,采用自定义OutputFormat。2)实现步骤:(1)自定义outputformat,(2)改写recordwriter,具体改写输出数据的方法write()...原创 2019-10-25 14:33:21 · 356 阅读 · 0 评论 -
Hadoop的map阶段流程
在学习这部分的时候,一直想弄明白,因此在博客上找到一张图,自己保存了,原文章自己没收藏,因此只留下一张图希望这个图可以让大家更好的理解这个知识点,同时也谢谢这个图的作者!!!...原创 2019-10-25 11:14:00 · 475 阅读 · 0 评论 -
hadoop中的序列化和反序列化
谈谈Hadoop序列化和反序列化及自定义bean对象实现序列化1)序列化和反序列化序列化就是把内存中的对象,转换成字节序列(或其他数据传输协议)以便于存储(持久化)和网络传输。反序列化就是将收到字节序列(或其他数据传输协议)或者是硬盘的持久化数据,转换成内存中的对象。Java的序列化是一个重量级序列化框架(Serializable),一个对象被序列化后,会附带很多额外的信息(各种...原创 2019-10-25 10:51:40 · 410 阅读 · 0 评论 -
Scala初步学习(三)
拉链操作作用于两个集合,将对应的元素合并成一个元组。val p = List(1,2,3,4)val q = List(11,12,13,14)p zip q原创 2019-10-25 08:54:53 · 86 阅读 · 0 评论 -
Scala学习之Option类
今天特意学习一下Option类型一般来说,对于每种语言都会有一个关键字来表示一个对象引用的“无”。比如在Java中使用的是null。在Scala中是融合了函数式编程的风格,当预计到变量或者函数返回值可能不会引用任何值的时候,使用Option类型。Option(选项)类型用来表示一个值。(有值或无值)。Option[T] 是一个类型为 T 的一个可选值的容器。Option类包含一个子类So...原创 2019-09-27 21:19:11 · 599 阅读 · 0 评论 -
Scala初步学习(三)
拉链操作作用于两个集合,将对应的元素合并成一个元组。val p = List(1,2,3,4)val q = List(11,12,13,14)p zip q得到的结果为原创 2019-09-26 21:42:47 · 103 阅读 · 0 评论 -
Scala初步学习(二)
问题: 思考统计一个字符串中字符出现的频率问题代码解决方法主要有两种(一)val freq = scala.collection.mutable.Map[Char, Int]()for (c <- "Mississippi") freq(c) = freq.getOrElse(c, 0) + 1(二)( Map [Char, Int]() /: "Missis...原创 2019-09-26 21:30:28 · 151 阅读 · 0 评论 -
Scala的初步学习(一)
声明变量: val var常用类型: Short Byte Int Char Long Double Booleanapply update option数据结构有如下:集合特质: 可变和不可变集合:没有重复数组:定长(Array),变长(ArrayBuffer),转换,多维映射: Key-Value元组:队列: 先进先出 queue enqueue deque...原创 2019-09-26 21:20:45 · 91 阅读 · 0 评论 -
hadoop 关闭datanode节点时发生异常:no datanode to stop
在开启Hadoop时,集群中的所有节点是没有问题的,在关闭时datanode节点时发生异常:显示 no datanode to stop关闭时,出现这样的问题,在我百度N+1次之后,好多博文显示说需要对hadoop进行格式化,但是我一直不想这样做,问过同学和老师之后,终于想起来查看日志了,因此看到了问题的所在。日志显示找不到NameNode。所以解决办法其实很简单,就是查看该虚拟机的以下配置...原创 2019-09-19 20:34:59 · 2004 阅读 · 0 评论 -
大数据之hive分区表和分桶表的区别
(一)二者的区别(1)分区和分桶都是细化数据管理,但是分区表是手动添加区分,由于hive是读模式,所以对添加进分区的数据不做模式校验。分桶表的数据时按住某些分桶字段进行hash散列 相乘的多个文件,所以数据的准确性高很多(2)分区表是指按照数据表的某列或某些列分为多个区,区从形式上可以理解为文件夹(3)分桶是相对分区进行更细粒度的划分。分桶将整个数据内容按照某列属性值的hash值进行区...原创 2019-09-10 21:51:19 · 6314 阅读 · 0 评论 -
Hive常用命令
第一类: 在Hive中进行简单的数据库操作(1)启动hive[atguigu@hadoop102 hive]$ bin/hive(2)查看数据库hive> show databases;(3)打开默认数据库hive> use default;(4)显示default数据库中的表hive> show tables;(5)创建一张表hive&g...原创 2019-09-10 21:17:26 · 181 阅读 · 0 评论 -
Hive和hdfs的关系与区别
Hive的基本介绍(1)hive 是基于 Hadoop 的一个数据仓库工具,可以将结构化的数据文件映射为一张数据库表,并提供完整的 sql 查询功能,可以将 sql 语句转换为 MapReduce 任务进行运行。可以通过类 SQL 语句快速实现简单的 MapReduce 统计,不必开发专门的 MapReduce 应用,十分适合数据仓库的统计分析。(2)Hive 是建立在 Hadoop 上的...原创 2019-09-10 21:08:17 · 19221 阅读 · 0 评论 -
什么是Hive
1. hive是建立在Hadoop上的数据仓库基础架构。它提供了一系列的工具,可以用来进行数据提取转换加载(ETL),这是一种可以存储、查询和分析存储在Hadoop中的大规模数据的机制。hive定义了简单的类似于SQL的查询语言称为QL,它允许熟悉SQL的用户查询数据。同时这种语言也允许熟悉MapReduce的开发者进行开发自定义的mapper和reducer来处理内建的mapper和reduce...原创 2019-09-10 21:00:09 · 2021 阅读 · 0 评论