hadoop
文章平均质量分 53
sunlylorn
2010.7校招加入腾讯目前就职于360搜索
展开
-
ubuntu下hadoop安装与伪分布式的配置
今天想装个hadoop玩玩,记录安装步骤如下。一、先决条件1、sun jdk6以上,下载地址:http://www.oracle.com/technetwork/java/javase/downloads/jdk7-downloads-1637583.html jdk-7u5-linux-i586.tar.gz2、hadoop,下载地址: http://mirror.bjtu.edu原创 2012-07-27 13:20:29 · 4126 阅读 · 0 评论 -
使用cacheArchive的方式优化hadoop job
一个hadoop job 有很多失败的task经查,该job依赖于很大的外部配置文件,大概有200MB左右的分词词典及其他配置文件。该job的启动方式为:/home/work/software/hadoop/bin/hadoop jar /home/work/software/hadoop/contrib/streaming/hadoop-streaming原创 2013-06-28 11:41:21 · 5167 阅读 · 0 评论 -
使用C++(通过Thrift)访问/操作/读写Hbase
要使用C++访问Hbase,可以走的途径少之又少,据说当前最好的方法就是通过Thrift来实现:http://thrift.apache.org/所以本文分成几部分:(1)安装Thrift;(2)用Thrift 生成访问Hbase所需的C++文件;(3)在程序中通过Thrift来访问Hbase。另外,本文只包含读写Hbase数据的例子,不包含配置Hbase的方法,如需这些内容,转载 2013-05-13 14:02:03 · 1873 阅读 · 0 评论 -
个性化离线实时分析系统pora
1.业务场景伴随着市场和技术的发展,个性化已经成为淘宝搜索的一个重要目标。简单来说,个性化就是让每个用户在使用淘宝搜索时都能够获取自己最想要的结果,而不再是千篇一律的展示。实现个性化最直接的手段就是通过分析用户的历史行为日志,为用户打上不同的标签,在搜索中根据这些标签来展示最贴近的结果。在淘宝,用户属性分析是通过每天在云梯上定时运行的map reduce job来完成的,产出结果导入我们的转载 2013-05-13 14:03:48 · 992 阅读 · 0 评论 -
hadoop需要多少个reducer?
Reduce的数目建议是0.95或1.75乘以 (no. of nodes> * mapred.tasktracker.reduce.tasks.maximum)。用0.95,所有reduce可以在maps一完成时就立刻启动,开始传输map的输出结果。用1.75,速度快的节点可以在完成第一轮reduce任务后,可以开始第二轮,这样可以得到比较好的负载均衡的效果。增加reduce的数原创 2013-01-18 16:04:38 · 1256 阅读 · 0 评论 -
Hadoop Streaming
Hadoop StreamingHadoop StreamingHadoop streaming是Hadoop的一个工具, 它帮助用户创建和运行一类特殊的map/reduce作业, 这些特殊的map/reduce作业是由一些可执行文件或脚本文件充当mapper或者reducer。例如:$HADOOP_HOME/bin/hadoop jar $HADOOP_HOME/had转载 2013-01-18 12:40:14 · 5387 阅读 · 0 评论 -
hadoop错误failed to report status for 600 seconds
hadoop运行reduce阶段总是报错:Task attempt_201301151634_193666_r_000010_0 failed to report status for 603 seconds这是由于执行合并索引操作时间较长,所以超过了600秒的时间限制,把这个值改高点就不会报错了。在程序里可以设置:job.getConfiguration().setI原创 2013-01-15 17:49:34 · 3468 阅读 · 0 评论 -
hadoop之grep
hadoop streaming -D stream.non.zero.exit.is.failure=false ...#!/bin/shisdebug=falseSTREAMING=/home/work/software/hadoop/contrib/streaming/hadoop-streaming.jarHADOOP=/home/work/software/ha原创 2013-01-11 12:40:17 · 4761 阅读 · 0 评论 -
Hadoop中map端流程分析
1. map端的主要函数有以下几个:split --> Record Reader --> map --> partition --> combine(Local Reduce)2. 以上几个函数各自的作用如下:split:用于将HDFS中的文件分块,并完成分块文件到各个map任务的映射。Record Reader:因为每一个map函数的输入输出参数都是ke转载 2013-01-23 10:14:12 · 776 阅读 · 0 评论 -
Windows下用Eclipse开发Hadoop程序遇到的问题及解决方法
运行hadoop程序报错如下:Exception in thread "main" java.io.IOException: Cannot run program "chmod": CreateProcess error=2解决方法: 只需要把cygwin的bin目录加到windows的用户环境变量中就可以了,然后需要重启eclipse原创 2012-08-17 18:52:39 · 1607 阅读 · 5 评论 -
Hadoop 2.0 计数器
hadoop1.x里面用于统计的计数器是Reporter累,在2.x中统一用Context类,此时需要调用下面的API进行统计:例子:public class test extends Configured implements Tool { enum BadRecord{ BAD_UNIQUEID, BAD_WIDTH, BAD_HEIGHT原创 2012-08-17 18:59:28 · 2523 阅读 · 0 评论 -
程序遇到core的时候 使得程序继续执行的解决办法
最近有点懒了,好久没有更新博客了,今天来一发。在代码开发过程中,我们经常会遇到程序core掉,这个时候正常的处理步骤是,我们保留程序的coredump,然后分析,进而找出程序的bug,fix it!但是,如果你的程序是线上服务,而且只会有极少数的输入会导致程序core掉,而且你允许可以有少量错误发生,那么这时候,我们的一个直观想法是,有没有什么方法可以 跳过这些该死的极少数异常数据原创 2013-11-20 15:37:07 · 3781 阅读 · 0 评论