Hadoop
文章平均质量分 74
爱篮球的IT小青年
爱篮球的IT小青年
展开
-
Hadoop伪分布式安装步骤
1.下载并解压Hadoop安装包2.进入Hadoop的解压目录,编辑conf/hadoop-conf.sh文件export JAVA_HOME=/usr/java/jdk1.60.223.修改hadoop下的conf/core-sire.xml文件 fs.default.name hdfs://localhost:90004.修改hdfs-site.原创 2013-11-30 20:06:26 · 798 阅读 · 0 评论 -
MapReduce的二次排序 SecondarySort
关于二次排序主要涉及到这么几个东西:在0.20.0 以前使用的是setPartitionerClass setOutputkeyComparatorClasssetOutputValueGroupingComparator 在0.20.0以后使用是job.setPartitionerClass(Partitioner p);job.se转载 2014-05-06 14:39:32 · 803 阅读 · 0 评论 -
Hadoop实战-中高级部分 之 Hadoop MapReduce高级编程
Hadoop实战-中高级部分 之 Hadoop MapReduce高级编程 Hadoop RestFulHadoop HDFS原理1Hadoop HDFS原理2Hadoop作业调优参数调整及原理Hadoop HAHadoop MapReduce高级编程Hadoop IOHadoop MapReduce工作原理Hadoop 管理Hadoop 集群安装H转载 2014-05-06 19:33:01 · 1983 阅读 · 1 评论 -
使用hadoop进行大规模数据的全局排序
1. Hellow hadoop~~!Hadoop(某人儿子的一只虚拟大象的名字)是一个复杂到极致,又简单到极致的东西。说它复杂,是因为一个hadoop集群往往有几十台甚至成百上千台low cost的计算机组成,你运行的每一个任务都要在这些计算机上做任务的分发,执行中间数据排序以及最后的汇总,期间还包含节点发现,任务的重试,故障节点替换等等等等的维护以及异常情况处理。谁叫had转载 2014-05-06 15:06:09 · 611 阅读 · 0 评论 -
Hadoop中两表JOIN的处理方法
Dong的这篇博客我觉得把原理写的很详细,同时介绍了一些优化办法,利用二次排序或者布隆过滤器,但在之前实践中我并没有在join中用二者来优化,因为我不是作join优化的,而是做单纯的倾斜处理,做join优化或者查询优化时,上述二者是最基本的优化办法了。1. 概述在传统数据库(如:MYSQL)中,JOIN操作是非常常见且非常耗时的。而在HADOOP中进行JOIN操作,同样常见转载 2014-05-06 14:32:36 · 690 阅读 · 0 评论 -
HBase安装步骤_伪分布式模式
1.下载安装包 hbase-0.94.11.tar.gz。 2.将压缩包进行解压: tar -zxvf hbase-0.94.11.tar.gz。解压到/home/guoyachao/software/文件夹。3. 修改hbase-0.94.11/conf/hbase-env.sh。在终端输入: vim hbase-env.sh (配置JAVA_HOME转载 2013-11-30 20:07:59 · 748 阅读 · 0 评论 -
PageRank算法细讲
1. PageRank算法概述 PageRank,即网页排名,又称网页级别、Google左侧排名或佩奇排名。 是Google创始人拉里·佩奇和谢尔盖·布林于1997年构建早期的搜索系统原型时提出的链接分析算法,自从Google在商业上获得空前的成功后,该算法也成为其他搜索引擎和学术界十分关注的计算模型。目前很多重要的链接分析算法都是在PageRank算法基础上转载 2014-02-28 21:16:30 · 1068 阅读 · 1 评论 -
MapReduce实现大矩阵乘法及代码实现
转载自:http://blog.csdn.net/xyilu/article/details/9066973引言何为大矩阵?Excel、SPSS,甚至SAS处理不了或者处理起来非常困难,需要设计巧妙的分布式方法才能高效解决基本运算(如转置、加法、乘法、求逆)的矩阵,我们认为其可被称为大矩阵。这意味着此种矩阵的维度至少是百万级的、经常是千万级的、有时是亿万级的。举个形象的栗子。至2012转载 2014-02-27 16:29:54 · 2122 阅读 · 1 评论 -
用Hadoop构建电影推荐系统及其若干解释
参考文章:http://blog.fens.me/hadoop-mapreduce-recommend/最近学习hadoop,用hadoop实现电影推荐系统,详细步骤请查看上面的链接。在最后一步计算推荐值时,对代码什么不解,一直不明白代码的意思,经过好几天的学习,终于弄懂了,随手把自己的理解记录下来以便以后回顾。最后一步的代码如下:package com.hadoop.mapreduc原创 2014-02-26 19:41:17 · 2817 阅读 · 0 评论 -
Hadoop学习之PageRank算法并行实现
前言Google搜索,早已成为我每天必用的工具,无数次惊叹它搜索结果的准确性。同时,我也在做Google的SEO,推广自己的博客。经过几个月尝试,我的博客PR到2了,外链也有几万个了。总结下来,还是感叹PageRank的神奇!改变世界的算法,PageRank!目录PageRank算法介绍PageRank算法原理PageRank算法的R语言实现1. P转载 2014-02-27 21:23:28 · 4566 阅读 · 4 评论 -
MapReduce简单实现基于物品的协同过滤算法
现在进到各种电商网站都会在页面给你推荐一些物品,那么这些推荐的物品是怎么得出来的呢?这里介绍一种协同过滤算法:基于物品的协同过滤算法。简单的说,就是给用户推荐他之前买过且平分高的相似的物品。该算法的主要思想是:1. 建立物品的同现矩阵就是说按用户分组,找出每2个物品在多少用户中同时出现的次数。2. 建立用户对物品的评分矩阵每个用户对每个物品的评分转载 2014-02-26 10:52:25 · 2458 阅读 · 0 评论 -
推荐系统中协同过滤算法实现分析
原创博客,欢迎转载,转载请注明:http://my.oschina.net/BreathL/blog/62519 最近研究Mahout比较多,特别是里面协同过滤算法;于是把协同过滤算法的这个实现思路与数据流程,总结了一下,以便以后对系统做优化时,有个清晰的思路,这样才能知道该如何优化且优化后数据亦能正确。 推荐中的协同过滤算法简单说明下: 首先,通转载 2014-02-26 10:46:05 · 1245 阅读 · 0 评论 -
MapReduce编程遇到的问题
package com.hadoop.mapreduce.examples.kpi;import java.io.IOException;import org.apache.hadoop.conf.Configuration;import org.apache.hadoop.fs.Path;import org.apache.hadoop.io.LongWritable;原创 2014-02-24 19:14:10 · 1100 阅读 · 0 评论 -
Hadoop运行出现的问题
1.启动hadoop后,运行jps命令查看hadoop是否正确运行,出现如下问题:[root@master hadoop-1.1.2]# /usr/java/jdk1.6.0_38/bin/jps10735 TaskTracker10921 Jps10517 SecondaryNameNode5940 org.eclipse.equinox.launcher_1.3.0.原创 2014-02-21 15:29:30 · 673 阅读 · 0 评论 -
Hadoop完全分布式模式的安装和配置
最近一段时间学习了hadoop,对hadoop有了一定的了解。正好实验室有足够的机器,可以进行hadoop的完全分布式模式的安装和配置。今天尝试了下,虽然其中遇到些问题,但最后还是安装成功了,安装完也随手把安装过程记录下来以备将来不时之需。我下载的hadoop的版本是1.1.2版本,机器上的jdk版本是1.6.0_38。1.准备3台机器,一台作为主结点,另外两台作为从结点:原创 2013-12-07 10:16:01 · 1017 阅读 · 0 评论 -
Hadoop HDFS分布式文件系统 常用命令汇总
引言:我们维护hadoop系统的时候,必不可少需要对HDFS分布式文件系统做操作,例如拷贝一个文件/目录,查看HDFS文件系统目录下的内容,删除HDFS文件系统中的内容(文件/目录),还有HDFS管理信息,单独启动停止 namenode datanode jobtracker tasktracker等等一系列的操作。大家跟着做一遍呢!就会对HDFS的体系架构有更加深入的理解,不多说我们开始吧转载 2013-12-07 12:51:55 · 953 阅读 · 0 评论 -
MapReduce实现大矩阵乘法
引言何为大矩阵?Excel、SPSS,甚至SAS处理不了或者处理起来非常困难,需要设计巧妙的分布式方法才能高效解决基本运算(如转置、加法、乘法、求逆)的矩阵,我们认为其可被称为大矩阵。这意味着此种矩阵的维度至少是百万级的、经常是千万级的、有时是亿万级的。举个形象的栗子。至2012年12月底,新浪微博注册用户数超5亿,日活跃用户4629万[1],如果我们要探索这4000多万用户可以分成哪些类转载 2014-09-09 09:29:02 · 870 阅读 · 0 评论