hadoop
「已注销」
这个作者很懒,什么都没留下…
展开
-
MapReduce程式如何调用第三方和本地库
MapReduce程式调用第三方包和本地库-------------------------问题:在MP程式中如何在不同的TaskTracker节点上调用第三方jar包和读取一些只读的文件。解决方法介绍:我们知道,在Hadoop中有一个叫做DistributedCache的东东,它是用来分发应用特定的只读文件和一个jar包的,以供Map-Reduce框架在启动任务和运行的时转载 2012-12-09 20:07:16 · 510 阅读 · 0 评论 -
Kmeans 文本聚类
参考文档:http://blog.csdn.net/lawrencesgj/article/details/8606570 源代码:https://github.com/shenguojun/hadoop/tree/master/WebKmeans/src/edu/sysu/shen/hadoophttps://github.com/shenguojun/hadoop/b转载 2013-11-25 22:26:53 · 1060 阅读 · 0 评论 -
编写Mahout程序流程
1,编写java程序2,编译:javac -classpath /home/hadoop/hadoop-0.20.2/hadoop-0.20.2-core.jar:${MAHOUT_HOME}/mahout-examples-0.8-job.jar -d /usr/local/webboss/tubd/mahout/myhout ./MyKmeansJob.java3,打包程序原创 2013-10-04 20:15:14 · 1452 阅读 · 0 评论 -
Streming 模式解析Mapreduce使用简例
stream_jar="/home/hadoop/hadoop-0.20.2/contrib/streaming/hadoop-0.20.2-streaming.jar";hadoop jar ${stream_jar} \ -D hadoop.job.ugi="admin" \ -D mapred.job.name="job_test_desc_ \ -D ma原创 2013-05-22 17:22:49 · 700 阅读 · 0 评论 -
hive 字符转义
原地址:http://bupt04406.iteye.com/blog/1213922CREATE TABLE escape (id STRING, name STRING)ROW FORMAT DELIMITED FIELDS TERMINATED BY '"';LOAD DATA LOCAL INPATH '/home/tianzhao/book/escape.tx转载 2013-03-12 16:19:29 · 3588 阅读 · 0 评论 -
hadoop distcp 命令
实例:hadoop distcp -ip -overwrite -m 80 "hdfs://${cluster_upload}/${biz}/${name}/ds=${date}" "hdfs://${cluster_95}/database/${biz}/${name}/ds=${date}"hadoop distcp -overwrite -delete -i dir1 dir2原创 2012-12-28 20:32:47 · 11940 阅读 · 0 评论 -
hadoop 参数设置收集
Reduce 个数设置hadoop的参数会受客户端设置参数影响,我的任务在hadoop上运行时reduce个数总是1,查看hadoop安装路径下的conf文件夹中的配置文件,查看/conf/hadoop-site.xml 或者/conf/hadoop-default.xml,查找: mapred.reduce.tasks 1 The default number o转载 2012-12-09 23:12:45 · 375 阅读 · 0 评论 -
hadoop 资源整理
http://hadoop.apache.org/docs/r1.1.0/cn/mapred_tutorial.html原创 2012-12-09 23:08:47 · 431 阅读 · 0 评论 -
基于MapReduce的频繁项集挖掘方法
http://www.cstor.cn/textdetail.asp?id=1023云计算是分布式计算技术的一种,其最基本的概念是透过网络将庞大的计算处理程序自动拆成无数个较小的子程序,再交由多服务崧所组成的庞大系统经搜寻、计算分析之后将处理结果回传给用户。云计算具有超大规模、虚拟化、高可靠性、高可扩展性、通用性等特点,在海量数据的处理中有着重要的地位和发展空间。云计算普遍采用的编程模转载 2012-12-09 22:07:40 · 5374 阅读 · 1 评论 -
设置hadoop Job允许map task失败的比例
设置hadoop Job允许map task失败的比例 故事背景:hadoop任务分为map task和reduce task,当map task执行失败后会重试,超过重试次数(mapred.map.max.attempts指定,默认为4),整个job会失败,这是我们不想看到的。解决办法:hadoop提供配置参数“mapred.max.map.failures.percen转载 2013-12-24 19:49:04 · 1422 阅读 · 1 评论