hadoop相关
文章平均质量分 60
风的王子
【关注领域】 架构 算法 前端 Android Flutter Unity
【喜欢爱好】武术和运动 看书 科幻和未解之谜
【我的GITHUB】https://github.com/zcwfeng
展开
-
Hadoop1.0.4 连接假象,ant自己编译
1.纠结一下午时间。自己编译了hadoop1.0.4 的eclips插件 eclipse版本4.2.2.2.eclipse安装好自己编译的插件后,连接配置的hadoop。结果Map/Reduce Location 下面的列表无反应,什么都没有,貌似连不上但是又不报通信异常或者拒绝访问之类错误实际上已经连上了。闲话少说,下面说下过程首先编译整个插件linux下面打开eclip原创 2013-04-30 22:29:33 · 966 阅读 · 0 评论 -
hadoop2.2.0 搭建
第一部分 Hadoop 2.2 下载 Hadoop我们从Apache官方网站直接下载最新版本Hadoop2.2。官方目前是提供了linux32位系统可执行文件,所以如果需要在64位系统上部署则需要单独下载src 源码自行编译。下载地址:http://apache.claz.org/hadoop/common/hadoop-2.2.0/如下图所示,下载红色标记部分即可。转载 2013-10-31 22:30:45 · 1443 阅读 · 0 评论 -
hadoop2.2.0 搭建初体验
下载 hadoop-2.2.0.tar.gztar-xzvf hadoop-2.2.0.tar.gzcdhadoop-2.2.0vietc/hadoop/hadoop-env.sh修改:export JAVA_HOME=/usr/local/jdk1.7.0_15vietc/hadoop/slaves修改localhost为hostmasterv原创 2013-10-31 22:01:37 · 1045 阅读 · 0 评论 -
Hadoop平台学习过程的一些总结
1.MapR有三种版本,M3(免费版)、M5(含有支持的版本,并启用了所有HA特性)和M7(在最近和自己重写的HBase一起发布),MapR采取了一种与其他供应商不同的方法,它肯定会有属于自己的追随者。2.hadoop 执行 mapreduce的有几种方式一、原生态的方式:java 源码编译打包成jar包后,由 hadoop 脚本调度执行二、基于 MR 的数据流 Like SQL原创 2013-11-02 11:44:53 · 1067 阅读 · 0 评论 -
hadoop的mapreduce常见算法案例有几种
基本MapReduce模式 计数与求和问题陈述: 有许多文档,每个文档都有一些字段组成。需要计算出每个字段在所有文档中的出现次数或者这些字段的其他什么统计值。例如,给定一个log文件,其中的每条记录都包含一个响应时间,需要计算出平均响应时间。解决方案:让我们先从简单的例子入手。在下面的代码片段里,Mapper每遇到指定词就把频次记1,Reducer一个个遍历这些词的集合然后把他们的频次转载 2013-11-02 11:34:11 · 2563 阅读 · 0 评论 -
HBase+zookeeper搭建
1.1下载解压最新版本选择一个 Apache 下载镜像:http://www.apache.org/dyn/closer.cgi/hbase/,下载 HBase Releases. 点击 stable目录,然后下载后缀为 .tar.gz 的文件; 例如 hbase-0.94.8.tar.gz.[plain] view plaincopytar -zxvf转载 2013-11-02 22:14:53 · 969 阅读 · 0 评论 -
HBase的理论性总结
1.HBase的体系结构主从服务器架构,有HReginon群和HBase Master服务器构成。HBase Master负责管理所有的HRegion服务器,所有的HRegion服务器通过Zookeeper来进行协调处理HBase 服务器运行期间的错误。HBase Master 不保存HBase中的任何数据,HBase 逻辑上表会被划分为多个HRgion,然后存储在HRgion服务器群。HBa原创 2013-11-03 11:29:15 · 1312 阅读 · 0 评论 -
开发HBase的时候需要搭建的Eclipse总结
版本:hadoop-1.2.1,hbase-0.94.12,zookeeper-3.4.5建立一个java项目,名字随意,需要的jar包如下图,在项目里面添加一个文件夹并设成class forder。protobuf 这个jar包是google的Message 相关包,不要忘记原创 2013-11-03 10:20:18 · 1843 阅读 · 0 评论 -
基于XMPP协议(openfire服务器)的消息推送实现
消息推送实现原理 这里的消息推送,通常是指由服务器端向客户端发送的一些消息,比如待办事宜、新闻等等。 从技术角度来看,消息推送本质上是基于TCP/IP的网络IO流传输,只不过这个IO流看起来由服务器发起,从上面的条件来看,一个基本的消息推送框架的Java实现应该是这样的:有一个用Java NIO实现的服务器,多个用socket连接到此服务器的客户端,然后之间用二转载 2013-11-06 20:16:27 · 2338 阅读 · 0 评论 -
hadoop 使用命令总结【更新ing】
hadoop fs -test -e可以判断hdfs文件是否存在,或者目录是否存在原创 2013-12-13 11:41:55 · 661 阅读 · 0 评论 -
Ant build.xml 详解
Ant的概念 可能有些读者并不连接什么是Ant以及入可使用它,但只要使用通过Linux系统得读者,应该知道make这个命令。当编译Linux内核及一些软件的源程序时,经常要用这个命令。Make命令其实就是一个项目管理工具,而Ant所实现功能与此类似。像make,gnumake和nmake这些编译工具都有一定的缺陷,但是Ant却克服了这些工具的缺陷。最初Ant开发者在开发跨平台的应用时,用样也是转载 2014-06-18 11:43:11 · 481 阅读 · 0 评论 -
hadoop 项目及其结构(一)
Pig Chukwa Hive HbaseMapReduce HDFS Zookeeper Common Avro原创 2014-09-27 21:42:27 · 1061 阅读 · 0 评论 -
有用链接总结
TIPS @2 更新###################################################################@1这里的这些事博客地址我会和一些,我认为还算牛的人去学习的博客地址和交流,一直置顶,其他的连接我会在下面罗列http://yangshangchuan.iteye.com/ (个人开发,原创 2012-09-07 17:16:29 · 1268 阅读 · 0 评论 -
Hadoop Namenode 无法启动 总结一
一周之后重新启动虚拟机,打开hadoop准备写点东西,结果jps 只有三个节点启动了TaskTrackersecondNamenodeDataNode然后继续jps,过一会全部节点都死掉捣鼓了半天,没办法只有format,结果数据丢失了,幸亏是学习用的测试环境所以,一般这种情况,不要急于找自己的配置那里出问题了解决问题先找思路,先看看你的网络首先,检查能原创 2013-10-29 22:09:41 · 1175 阅读 · 0 评论 -
Hadoop MapReduce进阶 使用分布式缓存进行replicated join
概念:reduce-side join技术是灵活的,但是有时候它仍然会变得效率极低。由于join直到reduce()阶段才会开始,我们将会在网络中传递shuffle所有数据,而在大多数情况下,我们会在join阶段丢掉大多数传递的数据。因此我们期望能够在map阶段完成整个join操作。主要技术难点:在map阶段完成join的主要困难就是mapper可能需要与一个它自己不能获得的数据进行j转载 2013-10-29 19:04:09 · 789 阅读 · 0 评论 -
深入理解hadoop网络
原文地址 http://bradhedlund.com/2011/09/10/understanding-hadoop-clusters-and-the-network/本文侧重于Hadoop集群的体系结构和方法,以及它与网络和服务器基础设施这件的关系。文章的素材主要来自于研究工作以及同现实生活中运行Hadoop集群客户的讨论。如果你也在你的数据中心运行产品级的Hadoop集群,那转载 2013-10-29 22:35:18 · 902 阅读 · 0 评论 -
sqoop安装及数据迁移
(读这篇文章:bingdongguke的提醒。有可能有的文件链接下载不了,可以到apache自行找链接与版本)下载sqoop[root@localhost download]# wget http://cloud.github.com/downloads/cloudera/sqoop/sqoop-1.3.0.tar.gz wget http://labs.mop.c转载 2013-07-05 16:45:16 · 912 阅读 · 0 评论 -
sqoop安装及数据迁移
(读这篇文章:bingdongguke的提醒。有可能有的文件链接下载不了,可以到apache自行找链接与版本)下载sqoop[root@localhost download]# wget http://cloud.github.com/downloads/cloudera/sqoop/sqoop-1.3.0.tar.gz wget http://labs.mop.c转载 2013-07-05 17:05:54 · 1316 阅读 · 0 评论 -
sqoop安装及数据迁移
(读这篇文章:bingdongguke的提醒。有可能有的文件链接下载不了,可以到apache自行找链接与版本)下载sqoop[root@localhost download]# wget http://cloud.github.com/downloads/cloudera/sqoop/sqoop-1.3.0.tar.gz wget http://labs.mop.c转载 2013-07-05 17:09:47 · 948 阅读 · 0 评论 -
sqoop 的使用
(读这篇文章:bingdongguke的提醒。有可能有的文件链接下载不了,可以到apache自行找链接与版本)下载sqoop[root@localhost download]# wget http://cloud.github.com/downloads/cloudera/sqoop/sqoop-1.3.0.tar.gz wget http://labs.mop.com/apach转载 2013-07-05 17:45:14 · 2020 阅读 · 0 评论 -
mahout之聚类算法——KMeans分析
一,K-Means聚类算法原理 k-means 算法接受参数 k ;然后将事先输入的n个数据对象划分为 k个聚类以便使得所获得的聚类满足:同一聚类中的对象相似度较高;而不同聚类中的对象相似度较小。聚类相似度是利用各聚类中对象的均值所获得一个“中心对象”(引力中心)来进行计算的。 K-means算法是最为经典的基于划分的聚类方法,是十大经典数据挖掘算法之一。K转载 2013-10-13 19:02:01 · 1490 阅读 · 0 评论 -
Mahout安装与配置
Mahout是Hadoop的一种高级应用。运行Mahout需要提前安装好Hadoop。Hadoop的安装网上很多,并不复杂,这里不再讲述,接下来阐述怎么安装Mahout。1:下载二进制解压安装。到http://labs.renren.com/apache-mirror/mahout/0.7下载,我选择下载二进制包,直接解压及可。hadoop@ubuntu:~$ tar -zxvf转载 2013-10-13 23:49:08 · 1822 阅读 · 0 评论 -
hadoop 运行期间偶发的各种问题积累(简单问题不展示)
HTTP ERROR: 404/jobtracker.jspRequestURI=/jobtracker.jspPowered by Jetty://端口已打开,且没被其它程序占用;jps查看各服务正常运行,且集群运行也没问题,只是不能查看;./hadoop dfsadmin -report 查看集群节点也没问题;解决办法:buid本地库存后原创 2013-10-14 16:07:14 · 976 阅读 · 0 评论 -
Hive两种模式安装
Hive两种模式安装 数据仓库工具,可以把Hadoop下的原始结构化数据变成Hive中的表。 支持一种与SQL几乎完全相同的语言HiveQL,除了不支持更新、索引和事务。 可以看成是从SQL到Map-Reduce的映射器。 提供shell、JDBC/ODBC、thrift、Web等接口。 一、内嵌模式安装 这样安装的元数据保持在内嵌的转载 2013-10-15 16:48:24 · 1016 阅读 · 0 评论 -
Hive问题总结(持续添加)
问题1. 因为要实现多人开发Hive,所以需要将hive的元数据存储在mysql。配置完成后,配置之前hive中创建的数据表在show tables时都不会出现,但hdfs数据文件都还在。 当在hive中drop table 时如果报以下错时 FAILED: Error in metadata: javax.jdo.JDODataStoreException: Erro原创 2013-05-20 12:51:21 · 1156 阅读 · 0 评论 -
hadoop配置、运行错误总结
新手搞hadoop最头疼各种各样的问题了,我把自己遇到的问题以及解决办法大致整理一下先,希望对你们有所帮助。一、hadoop集群在namenode格式化(bin/hadoop namenode -format)后重启集群会出现如下Incompatible namespaceIDS in ... :namenode namespaceID = ... ,datanode namespac转载 2013-10-16 15:16:35 · 831 阅读 · 0 评论 -
Hadoop版本选择探讨
由于Hadoop版本混乱多变,因此,Hadoop的版本选择问题一直令很多初级用户苦恼。本文总结了Apache Hadoop和Cloudera Hadoop的版本衍化过程,并给出了选择Hadoop版本的一些建议。1. Apache Hadoop1.1 Apache版本衍化截至目前(2012年12月23日),Apache Hadoop版本分为两代,我们将第一代Hadoop称为Hadoop转载 2013-10-19 10:34:21 · 1525 阅读 · 0 评论 -
MapReduce提高效率的几点建议
Cloudera提供给客户的服务内容之一就是调整和优化MapReduce job执行性能。MapReduce和HDFS组成一个复杂的分布式系统,并且它们运行着各式各样用户的代码,这样导致没有一个快速有效的规则来实现优化代码性能的目的。在我看来,调整cluster或job的运行更像一个医生对待病人一样,找出关键的“症状”,对于不同的症状有不同的诊断和处理方式。 在医学领域,没有转载 2013-10-28 20:33:33 · 3958 阅读 · 1 评论 -
Hadoop的Partitioner
Hadoop的Partitioner MapReduce的使用者通常会指定Reduce任务和Reduce任务输出文件的数量(R)。我们在中间key上使用分区函数来对数据进行分区,之后再输入到后续任务执行进程。一个缺省的分区函数是使用hash方法(比如,hash(key) mod R)进行分区。hash方法能产生非常平衡的分区。然而,有的时候,其它的一些分区函数对key值进行的分区将非常有用。比如原创 2016-08-03 15:15:26 · 746 阅读 · 0 评论