大数据学习
文章平均质量分 53
kzg0330
这个作者很懒,什么都没留下…
展开
-
HDFS完全分布式搭建步骤及难点
四台虚拟机虚拟机node01namenodenode02seconderynamenode ,datanodenode03datanodenode04datanode步骤:1、时间同步:①各个节点安装ntp命令yum install ntp②上网查找最新的时间服务器ntp1.aliyun.com③同步时间ntpdate ntp1.ali...原创 2018-10-11 11:34:14 · 260 阅读 · 0 评论 -
HDFS高可用完全分布式集群搭建及遇到的问题
本文主要介绍了高可用完全分布式的搭建步骤以及我在搭建集群时遇到的问题和解决的方法。下面我来介绍一下搭建高可用完全分布式的步骤首先进行集群规划,我用的是四台节点进行操作,规划如下:NN-1NN-2DNZKZKFCJNNnode01***node02*****node03***node04**详细搭建步骤...原创 2018-10-13 14:56:47 · 298 阅读 · 0 评论 -
搭建HDFS集群的客户端
这篇文章主要讲集群内操作的缺点,和如何配置集群的客户端不建议集群内操作:如果每一次上传文件都是选择某一台DN作为客户端,就会导致这个节点上的磁盘以及网络IO负载超过其他的节点,久而久之这个节点的磁盘以及网卡性能远远低于其他节点,从而导致数据的倾斜问题。所以要进行集群外操作,配置集群的客户端配置集群客户端的步骤:1、找一台新的虚拟机、服务器、。这台服务器必须能够与集群通信2、将配置好的安...原创 2018-10-14 19:03:59 · 231 阅读 · 0 评论 -
配置本地eclipse,在eclipse中操作HDFS
本文主要讲了如何做到在本地eclipse操作HDFS配置hadoop的插件,以便在eclipse中操作HDFS在dropins中创建plugins在plugins中加入hadoop-eclipse-plugin-2.6.0.jar重启eclipse打开show view,显示Map/Reduce Location视图新建hdfs配置hdfsHost为处于active的node...原创 2018-10-14 19:50:03 · 747 阅读 · 0 评论 -
分布式存储
1、什么是大数据:短时间内快速生成海量的多种多样的有价值的数据大数据技术:1、分布式存储2、分布式计算(1)、分布式批处理攒一段时间的数据,然后在未来某一个时间来处理这批数据(2)、分布式流处理(实时处理)数据不需要攒,直接处理,每产生一条数据,将结果推送前端页 面存储到数据库形成报表给老板 例如:双11天猫大屏幕等机器学习:凡是预测类的都需要使用机器学习,预测明天商...原创 2018-10-10 00:43:29 · 2167 阅读 · 0 评论 -
MapReduce分布式计算原理
本文主要通过一个例子引出MapReduce,介绍MapReduce分布式计算原理。首先为了方便大家理解,先来讲一个伐树的例子有abc三座山,山上有橡木、红木、樟木,现在派三个工人去伐木工人在山上伐木并将树木进行简单的加工,组装,然后发送给工厂进行组装在这个过程中:工人相当于Map工人在每个山头组装——>combiner将半成品运输到工厂——>shuffle (网...原创 2018-10-16 21:18:33 · 870 阅读 · 0 评论