- 博客(5)
- 收藏
- 关注
转载 Hadoop Yarn 框架原理及运作机制
1.1 YARN 基本架构YARN是Hadoop 2.0中的资源管理系统,它的基本设计思想是将MRv1中的JobTracker拆分成了两个独立的服务:一个全局的资源管理器ResourceManager和每个应用程序特有的ApplicationMaster。其中ResourceManager负责整个系统的资源管理和分配,而ApplicationMaster负责单个应用程序的管理。1.2 YARN基本...
2018-04-25 16:25:29 382
转载 spark 基础操作
dataframespark dataframe派生于RDD类,但是提供了非常强大的数据操作功能。主要对类SQL的支持。DataFrame是一种以RDD为基础的分布式数据集,类似于传统数据块中的表,它与RDD最主要的区别在于:DataFrame有schema元数据,即DataFrame所表示的数据集的每一列都有名称和数据类型。正是因为有了这些schema元数据,Sparl SQL的查询优化器就可以...
2018-04-13 11:07:16 2031 1
转载 Spark性能优化指南
Spark性能优化指南——基础篇李雪蕤 ·2016-04-29 14:00前言在大数据计算领域,Spark已经成为了越来越流行、越来越受欢迎的计算平台之一。Spark的功能涵盖了大数据领域的离线批处理、SQL类处理、流式/实时计算、机器学习、图计算等各种不同类型的计算操作,应用范围与前景非常广泛。在美团•大众点评,已经有很多同学在各种项目中尝试使用Spark。大多数同学(包括笔者在内),最初开始尝...
2018-04-11 12:52:09 1130
转载 BloomFilter——大规模数据处理利器
Bloom Filter是由Bloom在1970年提出的一种多哈希函数映射的快速查找算法。通常应用在一些需要快速判断某个元素是否属于集合,但是并不严格要求100%正确的场合。 一. 实例 为了说明Bloom Filter存在的重要意义,举一个实例: 假设要你写一个网络蜘蛛(web crawler)。由于网络间的链接错综复杂,蜘蛛在网络间爬行很可能会形成“环”。为了避免形成“环”,就需要知道蜘...
2018-04-09 14:27:24 417
转载 使用git rebase合并多次commit
转自:https://blog.csdn.net/yangcs2009/article/details/471663611.首先使用git log查看一下提交历史[plain] view plain copy[demo@ubuntu1204:zh_cn(bugfix/ycs-MOS-1503-notify-template-table-center)]$ git log commit 5e187...
2018-04-02 12:10:41 1093
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人