![](https://img-blog.csdnimg.cn/20201014180756918.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
大数据
mztt3010
If you see as I see,if you would seek as I seek.
展开
-
spark&storm优缺点
spark与storm的对比 对比点 Storm Spark Streaming 实时计算模型 纯实时,来一条数据,处理一条数据 准实时,对一个时间段内的数据收集起来,作为一个RDD,再处理 实时计算延迟度 毫秒级 秒级 吞吐量 低 高 事务机制 支持完善 支持,但不够完善转载 2019-02-25 21:01:44 · 2617 阅读 · 0 评论 -
HDFS
HDFS:Hadoop Distributed File System 分布式文件系统,为海量数据存储&计算服务,HDFS 将将要存储的大文件进行分割,分割到既定的存储块(Block)中进行了存储,并通过本地设定的任务节点进行预处理,从而解决对大文件存储与计算的需求。 文件系统的名字空间 HDFS支持传统的层次型文件组织结构。用户或者应用程序可以创建目录,然后将文件保存在这些目录里。文件系...原创 2018-12-25 16:03:15 · 201 阅读 · 0 评论 -
yarn
YARN: YARN的基本思想是将资源管理和作业调度/监视的功能分解为单独的守护进程。 ResourceManager 负责集群中所有资源的统一管理和分配,它将各个资源部分(计算、内存、带宽等)精心安排给基础 NodeManager(YARN 的每节点代理)。rourceManager 还与 ApplicationMaster 一起分配资源,与 NodeManager 一起启动和监视它们的基础应...原创 2018-12-25 13:32:47 · 141 阅读 · 0 评论 -
Spark->预热
数据排序 对输入文件中数据进行排序。输入文件中的每行内容均为一个数字,即一个数据。 要求在输出中每行有两个间隔的数字,其中,第一个代表原始数据在原始数据集中的位次,第二个代表原始数据 5956 22 650 92 26 54 6 2 32 654 32 15 756 65223 输出: 1 2 2 6 3 15 4 22 5 26 6 32 7 32 8 54 9 92 10 650 11 6...原创 2018-10-17 19:33:11 · 434 阅读 · 0 评论 -
Scala 玩玩而已
1 编写一小段Scala代码,将某个文件中的行倒转顺序(将最后一行作为第一行,依此类推) import io.Source import java.io.PrintWriter //不导包 io.Source.fromFile(path) val path = new PrintWriter("/home/mztt/test.txt") Source.fromFile("book.txt").ge...原创 2018-10-13 19:37:58 · 232 阅读 · 0 评论 -
大数据集群时间同步解决方案
大数据集群搭建时,集群无法启动时,可能是时间不同步,内网环境下,可以采用rdate命令更新时间, 问题 :集群无法启动 日志中查看到错误: Server mini2,16020,1508608510960 has been rejected; Reported time is too far out of sync with master. Time difference of 42898735...原创 2018-09-27 20:05:49 · 1662 阅读 · 0 评论 -
PageRank 算法
目录: 基本思想 算法原理 PR值计算方法 1.基本思想 PageRank,即网页排名,是Google用来标识网页的等级或重要性的一种算法。 最早的搜索引擎采用的是 分类目录 的方法,即通过人工对网页进行分类并整理出高质量的网站。 随着网页数目的急剧增大,这种方法显然无法实施。于是,搜索引擎进入了 文本检索 的时代,即通过计算用户的查询语句...转载 2018-09-17 20:22:49 · 698 阅读 · 0 评论