Hadoop and Spark
limn2o4
这个作者很懒,什么都没留下…
展开
-
以图搜图引擎 With Saprk
最近搞了一个SX搜索图片相似度的系统,非常的简单。主要原理是这样的1.用Phash算法计算出每二个图片的Phash值,存在CSV中2.用Spark读入CSV,并且计算出要搜索的图片的Hash值3.将这个值广播出去,然后求一个hamming距离的最大值代码如下,在我的gayhub中也有limn2o4’s githubimport cv2import numpy as npimport ...原创 2019-01-28 19:06:33 · 4934 阅读 · 1 评论 -
HDFS的基本概念
当一台计算机无法存储海量数据时,就对他进行分区,分开在若干台计算机上。然而普通的文件系统无法胜任这一工作,于是,分布式文件系统就应运而生。HDFS概念1.数据块:每个硬盘都有默认的数据块大小,大小不一。他们是磁盘读写数据的最小单位。HDFS中有同样的概念,但是根据其海量数据的要求,一般一个块大小为 128 MB 。比磁盘的块要大得多。这样做的原因是为了将寻址(寻找块的过程)所需时间尽可能地变...原创 2019-01-17 17:02:50 · 349 阅读 · 0 评论 -
MapReduce在YARN上的的工作机制
Mapreduce过程概述首先我们对整个mpred的过程有个初步的理解。首先,我们在客户节点上提交mapred程序,也就是向资源管理器提交作业。其次,资源管理器对任务进行初始化和分配。分配任务之后,任务开始在特定节点上的制定容器执行,并向MRapplicationManager更新进度。最后,application master收到作业完成的或者是薄的通知,并通知客户端。清理容器和工作状...原创 2019-01-16 23:14:12 · 402 阅读 · 0 评论 -
Spark 的基本概念和操作
Spark 总结Spark 是流行大数据计算框架之一,和 mapred 相比,这种计算框架更加灵活方便。并且还有强大的机器学习库 Spark Mllib 。除此之外,我们还可以发现 Spark 项目包含很多组件,这些组件关系密切并且可以相互调用。这样就不需要组合各种工具使用了。Spark 可以运行在各种集群上,比如 YARN ,同时自带独立集群管理器。Spark 还支持与 HDFS 进行对...原创 2019-01-19 18:15:41 · 267 阅读 · 0 评论 -
MapReduce的容错机制
MapReduce是如何错的由于mapreduce要处理海量的数据,需要驱动成千上百的节点,如果节点出了问题,要如何处理呢?worker节点出现故障对应到hadoop mapreduce,就是在datanode上运行的worker出现了故障。解决的方法是master节点定期ping slave节点,如果收不到这个节点返回的信息,那么这个slave节点就会被标记失效,这个节点的任务就由其他的空...原创 2019-02-14 23:46:43 · 718 阅读 · 0 评论 -
如何正确的配置hadoop3.0.3 伪分布式(YARN)
我的系统配置:Ubuntu 18.04java:jdk1.8.0 (java8)hadoop version: 3.0.3准备工作下载,安装好hadoop。国内的话去镜像源列表找找看http://www.apache.org/mirrors/注意要下载binary release,也就是文件名不带src的给一个华科的镜像地址:http://mirrors.hust.edu.cn...原创 2019-01-14 21:43:15 · 1703 阅读 · 3 评论