大数据
文章平均质量分 50
winner8881
这个作者很懒,什么都没留下…
展开
-
(九)算法工程师遇上大数据-Flink
算法工程师遇上大数据(9)-Flink原创 2021-04-04 14:26:51 · 370 阅读 · 0 评论 -
(八)算法工程师遇上大数据-Spark
算法工程师遇上大数据(8)-Spark原创 2021-04-04 14:26:12 · 322 阅读 · 0 评论 -
(七)算法工程师遇上大数据-Kafka
算法工程师遇上大数据(7)-Kafka原创 2021-04-04 14:25:41 · 224 阅读 · 0 评论 -
(六)算法工程师遇上大数据-Strom
算法工程师遇上大数据(6)-Strom原创 2021-04-04 14:25:11 · 242 阅读 · 0 评论 -
(五)算法工程师遇上大数据-Flume
算法工程师遇上大数据(5)-Flume原创 2021-04-04 14:24:34 · 176 阅读 · 0 评论 -
(四)算法工程师遇上大数据-Zookeepr
算法工程师遇上大数据(4)-Zookeepr原创 2021-04-04 14:23:51 · 199 阅读 · 0 评论 -
(三)算法工程师遇上大数据-Hive
算法工程师遇上大数据(3)-hive原创 2021-04-04 14:23:11 · 114 阅读 · 0 评论 -
(二)算法工程师遇上大数据-Hadoop
算法工程师遇上大数据(2)-hadoop原创 2021-04-04 14:22:54 · 365 阅读 · 0 评论 -
(一)算法工程师遇上大数据-Scala
– scala原创 2021-04-04 14:15:58 · 236 阅读 · 0 评论 -
hive测试技巧
1.仅采用分区进行测试,加快测试速度,单个分区测试通过,再放开全量select a.value1, a.value2from awhere dt=$dt hour=$hout>> hour=$hour将分区限制到最小2.多表join时,当关心其中两个表join结果时,可以把其他表删掉,数据插入空数据替代>> 本条过于简单>> 但却十分实用3.大表采样后落一个新的小表,用小表测试select * from (select t.* from原创 2021-03-12 10:04:21 · 276 阅读 · 0 评论 -
hive case when
hive case when写法1case when tb1.os = 'android' then 'android'when tb1.os = 'ios' then 'iPhone'else 'PC'end as os,写法2case tb1.oswhen 'android' then 'android'when 'ios' then 'iPhone'else 'PC'end as os,原创 2021-03-10 10:13:19 · 126 阅读 · 0 评论 -
hive split 函数转义问题
语法split(str string, regex string) -- 使用 regex 分割字符串 str基本用法select split('a,b,c,d', ',') from temp_cwh_test; -- 分割-- 结果为数组> ["a","b","c","d"]截取字符串中某个值select split('a,b,c,d', ',')[0] from temp_cwh_test; -- 提取第1个值> a特殊字符的处理针对特殊分割符号,需要特殊处理。原创 2021-03-09 18:16:18 · 1524 阅读 · 0 评论 -
大数据知识框架汇总
文件存储Hadoop HDFS、Tachyon、KFS离线计算hadoop MapReduce、Spark流式、实时计算Storm、Spark Streaming、S4、HeronK-V、NOSQL数据库HBase、Redis、MongoDB资源管理YARN、Mesos####日志收集Flume、Scribe、Logstash、Kibana消息系统Kafka、StormMQ、ZeroMQ、RabbitMQ查询分析Hive、Impala、Pig、Presto、Phoenix、S.原创 2020-08-07 11:42:22 · 281 阅读 · 0 评论 -
集群、分布式、微服务、负载均衡概念之间的区别
集群就是一台计算机处理不了这件事情,需要多台计算机一起完成这件事情。通俗的说:多个人干同一件事分布式把大的项目拆分成很多个子项目,每个子项目负责一部分,之间相互独立 (一个项目崩了,其他项目还能正常运行) 又相互联系 (可以相互调用) 。通俗的说:多个人干不同的事微服务和分布式类似,微服务是架构设计方式,分布式是系统部署方式,可以理解成一种更严格的分布式(通俗理解)负载均衡就是把很多的请求分配给不同的服务器,减少压力举例去饭店吃饭就是一个完整的业务,饭店的厨师、配菜师、传菜员、服务员就是分原创 2020-08-07 11:37:54 · 273 阅读 · 0 评论 -
大数据-全网最通俗解释汇总
MapReduce的一个通俗解释(word_count为例)1、word_count为例理解map-reduce2、用通俗易懂的大白话讲解Map/Reduce原理3、最通俗解释4、map把数据映射出来,根据你关心的数据,生成一组数据给下一阶段reduce处理,reduce就是根据map的输入,来进行数据的聚合,汇总等操作...原创 2020-08-05 15:01:47 · 3669 阅读 · 0 评论 -
hive sql报错
1.hive sql 报错FAILED: ParseException line 22:0 cannot recognize input near '<EOF>' '<EOF>' '<EOF>' in subquery source2.解决select * from( select ... from table_1 where ...) table_outer嵌套的内层的表一定要有别名,也就是示例代原创 2020-11-16 17:25:58 · 1077 阅读 · 1 评论