大数据(1)
文章平均质量分 54
David&Tea
这个作者很懒,什么都没留下…
展开
-
Hadoop HA 配置
改配置是基于已经安装好Hadoop的前提下的。1. 安装zookeeper下载安装zookeeper,我的版本是zookeeper-3.4.62. 配置zookeeper置文件存放在$ZOOKEEPER_HOME/conf/目录下,将zoo_sample.cfd文件名称改为zoo.cfg, ① 更改其中的数据目录dataDir=/opt/zookeeper② 添加原创 2016-05-15 16:52:07 · 6333 阅读 · 1 评论 -
Hadoop HA 后的 eclipse-plugin设置
做完Hadoop HA后,因为有两个NameNode, 所以原来的eclipse-plugin就无法使用了,需要重新设置,eclipse-plugin只是链接服务器然后操作,所以需要每个NameNode中都设立链接。假如有两个NameNode,分别为ubuntu1和ubuntu2,集群名为mycluster.则eclipse-plugin中需要配置两个链接,设置如下: 其中Us原创 2016-05-15 06:50:08 · 6315 阅读 · 0 评论 -
BUG:Yarn resourceManager 无法启动
Yarn resourceManager 无法启动错误日志:在日志hadoop2/logs/arn-daiwei-resourcemanager-ubuntu1.log中problem binding to [ubuntu1:8036] java.net.BindException: Address already in use;错误原因:因为在更改yarn原创 2016-05-15 03:54:55 · 13125 阅读 · 0 评论 -
HBase体系结构
1.HBase简介HBase – Hadoop Database,是一个高可靠性、高性能、面向列、可伸缩的分布式存储系统,利用HBase技术可在廉价PC Server上搭建起大规模结构化存储集群。HBase是Google Bigtable的开源实现,类似Google Bigtable利用GFS作为其文件存储系统,HBase利用Hadoop HDFS作为其文件存储系统;Google运转载 2016-06-05 17:53:00 · 6353 阅读 · 0 评论 -
KMeans聚类算法
KMeans聚类算法参考文章:http://blog.csdn.net/xiaojimanman/article/details/51086879 算法简介 K-means算法是比较经典的聚类算法,算法的基本思想是选取K个点(随机)作为中心进行聚类,然后对聚类的结果计算该类的质心,通过迭代的方法不断更新质心,直到质心不变或稍微移动为止,则最后的聚类结果就是最后的聚类结果。下面首先原创 2016-12-26 15:07:15 · 2377 阅读 · 0 评论 -
协同过滤算法
协同过滤算法算法介绍 关于协同过滤的一个最经典的例子就是看电影,有时候不知道哪一部电影是我们喜欢的或者评分比较高的,那么通常的做法就是问问周围的朋友,看看最近有什么好的电影推荐。在问的时候,都习惯于问跟自己口味差不多的朋友,这就是协同过滤的核心思想。 协同过滤是在海量数据中挖掘出小部分与你品味类似的用户,在协同过滤中,这些用户成为邻居,然后根据他们喜欢的东西组织成一个排原创 2017-01-14 14:14:03 · 676 阅读 · 0 评论 -
Hadoop2.7.0安装问题
Hadoop2.7.0安装问题 HDFS Web页面DataNodes 显示问题当安装成功后,各个节点JPS均正常,在HDFS的Web页面的Overview页面显示Live Nodes的个数为3,但是在具体细节的Datanodes页面只有一个,具体如下: 以上情况纯属正常,因为此时datanode里面的数据为空,所有仅显示一个,当你上传文件至HDFS时,即可正原创 2017-01-17 09:02:30 · 648 阅读 · 0 评论 -
IntelliJ IDEA 运行Hadoop2.7.0 wordcount 实例
IntelliJ IDEA 运行Hadoop2.7.0 wordcount 实例背景 Hadoop2.7.0在虚拟机上安装完成,core-site.xml中配置的fs.defaultFS 端口为9000。1 新建maven项目2 配置pom.xml由于我虚拟机中的Hadoop版本为2.7.0,所以这里的maven的Hadoop版本必须对应,不然会出错。具体配原创 2017-01-18 10:26:59 · 11592 阅读 · 5 评论