大数据
hammring
Stay Hungery,Stay Foolish
展开
-
hql中的聚合函数
hql函数的输入与输出是多对一的关系,即将多条输入记录聚合成一条输出值。可以与hql中的group by语句混合使用。函数 功能 avg ...原创 2021-06-14 23:54:59 · 977 阅读 · 1 评论 -
面试题:大数据开发面试题
1.hive中常见的文件格式有哪几种,为什么使用这几种文件格式2.scala中的闭包是什么3.shell中$的作用4.hashmap中扩容机制,为什么hashmap是线程不安全的?5.spark中怎么计算task的数量6.hbase中rowkey的设计原则,7.rowkey是设计为int型还是string型8.habase的设计方法是什么样的,使用列簇的存储方式有什么好处?9.在一个有序数组中查找目标值,有几种方法...原创 2021-05-21 09:41:41 · 189 阅读 · 0 评论 -
Flume基础:source,sink,channel
Flume是向Hadoop批量导入基于事件的海量数据。一个典型的例子就是从一组web服务器中收集日志文件,然后把这些文件中的日志事件转移到一个新的HDFS汇总文件中作进一步处理,其终点通常被称为HDFS.Flume代理是由持续运行的source(数据源)、sink(数据目标)以及channel(用于连接sink和source)构成的java进程。Flume的source产生事件,并将其传送给channnel,channel存储这些事件直至转发给sink。可以把source-channel-sink.原创 2021-05-14 17:48:19 · 708 阅读 · 0 评论 -
Spark中的Transformation和action算子
RDD中的所有转换都是延迟加载的,也就是说,他们并不会直接计算结果。相反的,他们只是记住这些应用到基础数据集(例如一个文件)上的转换动作。只有当发生一个要求返回结果给Driver的动作时,这些转换才会真正运行。这种设计让Spark更加有效率的运行。常见的Transmation:map(func) 返回一个新的RDD,该RDD由每一个输入元素经过func函数转换后组成filter(func) 返回一个新的RDD,该RDD由经过func函数计算后返回值为true的输入元素组成flatMap(fu原创 2021-05-09 00:36:30 · 200 阅读 · 0 评论 -
Hbase shell命令
Hbase shell有一些常用的命令,列出几个常用的Hbase命令:名称 命令表达式 查看存在哪些表 list 创建表 create '表名称',‘列名称1’,‘列名称2’,‘列名称3’ 添加记录 put '表名称',‘行名称’,‘列名称’,‘值’ 查看记录 get '表名称',‘列名称’ 查看表中的记录总数 count '表名称' 删除记录 delete'表名称',‘行名称’,‘列名称’, 删除一张表 分为两步 1.原创 2021-04-14 16:40:35 · 116 阅读 · 0 评论 -
Hive sql 列转行 (Lateral View + explode)
需求:id listA 大象|狮子B 老鹰|鸭子|企鹅|麻雀C 乌龟|螃蟹|小龙虾|皮皮虾|鲸鱼|海豚转成如下格式:id nameA 大象A 狮子B 老鹰B 鸭子B 企鹅B 麻雀C 乌龟C 螃蟹C 小龙虾C 皮皮虾C 鲸鱼C 海豚实现思路:1.建表animal_info...原创 2021-01-12 11:29:33 · 485 阅读 · 0 评论 -
在 HBase Shell 命令行正常查看十六进制编码的中文
Hbase查看十六进制代码:hbase(main):050:0> scan 'test'row column+cell row-1 column=f:c1, timestamp=1587984555307, value=\xe7\xa6\x85\xe5\x85\x8b row-2原创 2020-12-12 11:05:22 · 4523 阅读 · 5 评论 -
hive建表之后如何给表添加注释
hive建表时没给表加注释(是表的注释,不是字段的注释), 现在想补一下,在不能删表的前提下的操作方法:ALTER TABLE 表名 SET TBLPROPERTIES ('comment' = '注释内容')举个例子:ALTER TABLE da.shop_recharge_serial_monthly SET TBLPROPERTIES ('comment' = '财务月结数据表...原创 2019-11-05 14:45:00 · 10484 阅读 · 0 评论 -
exec的功能
执行完spark后,发现脚本后面的的两个命令都没有执行,结尾用echo输出了一下 也没打印.脚本内容如下所示:后来发现start_date后面多了个\,首先去掉斜杠后来查了查exec,发现exec有两个功能:1.取代当前的shell,通过给出的命令程序。即命令执行完成后,会退出本shell。比如:exec ls在shell中执行ls,ls结束后不返回原来的shell中。...原创 2019-08-23 10:58:22 · 1457 阅读 · 0 评论