大数据
BigDataer_DK
这个作者很懒,什么都没留下…
展开
-
linux磁盘挂满
linux磁盘挂满https://blog.csdn.net/qq_25667815/article/details/107162094原创 2020-11-25 10:53:46 · 181 阅读 · 0 评论 -
Hive常用函数大全(二)(窗口函数、分析函数、增强group)
窗口函数与分析函数应用场景:(1)用于分区排序(2)动态Group By(3)Top N(4)累计计算(5)层次查询窗口函数FIRST_VALUE:取分组内排序后,截止到当前行,第一个值LAST_VALUE: 取分组内排序后,截止到当前行,最后一个值LEAD(col,n,DEFAULT) :用于统计窗口内往下第n行值。第一个参数为列名,第二个参数为往下第n行(可选,默认为1),...转载 2020-03-13 16:28:57 · 301 阅读 · 1 评论 -
Flink总述 -- 常见面试总结
Flink的可能面试题Flink中的核心概念和基础篇,包含了Flink的整体介绍、核心概念、算子;Flink进阶篇,包含了Flink中数据传输、容错机制、序列化、数据热点、反压;Flink源码篇,包含了Flink核心代码实现、Job提交流程、数据交换、分布式快照机制、Flink Sql原理。Flink中的核心概念和基础篇Flink提供了诸多高抽象层的API方便与用户编写分布式任务:Da...原创 2020-03-11 15:16:10 · 560 阅读 · 0 评论 -
Kafka核心总述
Kafka核心总结5.1Kafka消费端的Rebalance我们知道,一个topic能被若干个消费者进行消费,若干个消费者组成一个Consumer Group消费组,一条消息只能被消费组中的一个消费者消费,但是可以被不同消费组中的不同消费者消费。Rebalance是一个消费组的所有消费者就如何消费订阅topic的所有分区达成共识的过程,在Rebalance过程中,所有的Consumer实例都...原创 2020-03-10 16:10:52 · 201 阅读 · 0 评论 -
Kafka核心总述
Kafka核心总结3.1Kafka副本作用默认由broker端参数default.replication.factor控制的分区设置一个副本,通过修改默认值或在命令行创建topic时指定replication-factor参数控制副本数量。通过增加消息副本的数量可以使消息冗余储存,提高数据可靠性;还可以提高其服务可用性,副本选举机制会使再broker上的leader挂掉,就近原则选举follo...原创 2020-03-10 15:29:04 · 193 阅读 · 0 评论 -
浅谈Collection的入门级知识点二:Map
菜鸟级的自我成长 二、 Map部分 Map:public interface Map原创 2018-08-11 10:58:43 · 245 阅读 · 1 评论 -
hashTable和hashmap和concurrentHashMap的
HashTable底层数组+链表实现,无论key还是value都不能为null,线程安全,实现线程安全的方式是在修改数据时锁住整个HashTable,效率低,ConcurrentHashMap做了相关优化初始size为11,扩容:newsize = olesize2+1计算index的方法:index = (hash & 0x7FFFFFFF) % tab.lengthHashMap底层数...转载 2018-11-27 11:35:19 · 170 阅读 · 0 评论 -
Spark Streaming和Kafka整合保证数据零丢失
Spark Streaming和Kafka整合保证数据零丢失 当我们正确地部署好Spark Streaming,我们就可以使用Spark Streaming提供的零数据丢失机制。为了体验这个关键的特性,你需要满足以下几个先决条件:1、输入的数据来自可靠的数据源和可靠的接收器; 2、应用程序的metadata被application的driver持久化了(checkpointed ); ...原创 2018-11-13 19:48:15 · 906 阅读 · 1 评论 -
机器学习之路02——模型评估之“交叉验证法(cross )”
先将数据集*D*划分为*k*个大小相似的互斥子集,即*D*=*D~1*∪*D~2*原创 2018-11-01 19:35:51 · 680 阅读 · 1 评论 -
机器学习之路01——模型评估之“留出法(hold-out)”
留出法(hold-out)直接将数据集D划分为两个互斥的集合,其中一个集合作为训练集S,另外一个作为测试集T,即D=S∪T,S∩T=0.在S上训练出模型后,用T来评估其测试误差,作为对泛化误差的评估需要注意的问题:1.训练/测试集的划分要尽可能的保持数据分布的一致性,避免因数据划分过程引入额外的偏差而对最终结果产生影响2.在给定训练/测试集的样本比例后,仍然存在多种划分方式对初始数据集D进...原创 2018-11-01 17:54:57 · 19280 阅读 · 3 评论 -
Spark性能调优--
《spark》spark性能调优数据倾斜调优1.绝大多数task执行的都非常快,但是个别task执行极慢2.原本能够正常执行的spark作业,突然某天出现oom(内存溢出)异常,观察异常栈,是我们写的业务代码造成的(情况少见)数据倾斜发生的原理在进行shuffle的时候,必须降各个节点上相同的key拉取到某个节点上的一个task来进行处理,比如按照key进行聚合或join等操作。此时如...原创 2018-11-01 13:51:19 · 311 阅读 · 1 评论