- 博客(17)
- 资源 (7)
- 收藏
- 关注
原创 mahout数据承载之FileDataModel的一个小插曲
FileDataModel在官方说是除了装载csv,tsv文件外,还可以装载压缩文件例如zip或gzip的,mahout in action书中也是那样说的。于是我抱着学习的态度去试验了一把,结果是出人意料的报错了:Exception in thread "main" java.util.NoSuchElementException at com.google.common.coll
2014-12-25 11:11:11 3353
原创 mahout推荐入门之评估GroupLens数据集
前面都是在一个非常小的测试数据集上进行推荐评估,现在我们下载一个真实的数据集来进行评估。在http://www.grouplens.org/node/73上找到并下载ml-100k.zip,解压在其中找到ua.base文件作为我们的评估数据集。这是一个制表符分隔的文件,对于FileDataModel同样适合装载,包括我们前面用到的逗号分隔符的文件也可以。这个数据集中有100000个偏好值,相对
2014-12-24 12:53:24 3213
转载 hadoop作业引用第三方jar文件
要想让mapreduce程序引用第三方jar文件, 可以采用如下方式:通过命令行参数传递jar文件, 如-libjars等;直接在conf中设置, 如conf.set(“tmpjars”,*.jar), jar文件用逗号隔开;利用分布式缓存, 如DistributedCache.addArchiveToClassPath(path, job), 此处的path必须是hdfs, 即自己讲
2014-12-24 11:23:57 2790
原创 mahout入门之对推荐结果进行评估
package com.besttone.mahout.demo.recommender;import java.io.File;import java.io.IOException;import org.apache.mahout.cf.taste.common.TasteException;import org.apache.mahout.cf.taste.eval.Recomme
2014-12-23 23:41:34 2832
原创 mahout入门之编写第一个基于用户的推荐程序
首先创建一个java工程,导入必要的jar包,工程结构类似下图:intro.txt测试数据如下:1,101,5.01,102,3.01,103,2.52,101,2.02,102,2.52,103,5.02,104,2.03,101,2.53,104,4.03,105,4.53,107,5.04,101,5.04,103,3.
2014-12-23 16:04:58 2459 1
原创 mahout入门之初次使用mahout
由于我是用parcels安装的hadoop集群,对应的example jar包在/opt/cloudera/parcels/CDH/lib/mahout/mahout-examples-0.8-cdh5.0.0-job.jar。a .下载测试数据:wget http://archive.ics.uci.edu/ml/databases/synthetic_control/synthetic_c
2014-12-23 14:10:14 2598
原创 linux bash中的三目运算符
对于三目运算符大家一般都很熟悉,java中的写法是 a==b?c:d 当a==b时为c否则为d在linux bash中用 “:-”来表示,如:export HADOOP_HOME=${HADOOP_HOME:-$LIB_DIR/hadoop}我们在hadoop的相关脚本中容易看到这句,意思就是如果你有自己指定环境变量$HADOOP_HOME,那么就用你指定的,否则就取$LIB_DIR
2014-12-23 13:07:14 17200 2
转载 使用 Eclipse Memory Analyzer 进行堆转储文件(heapdump)分析
http://www.ibm.com/developerworks/cn/opensource/os-cn-ecl-ma/index.htmlEclipse Memory Analyzer(MAT)是著名的跨平台集成开发环境 Eclipse Galileo 版本的 33 个组成项目中之一,它是一个功能丰富的 JAVA 堆转储文件分析工具,可以帮助你发现内存漏洞和减少内存消耗。本文主
2014-12-22 13:07:58 4344
原创 pig 通过参数替换实现动态运行脚本
一般情况下,都会有定期运行的pig脚本,比如每天运行一次的脚本,这类脚本往往在内部都要用到当天的日期作为参数,pig支持参数替换,参数由前缀$字符来标示,例如我们需要load每天的数据进行统计分析,每天的数据在hdfs上是按日期进行进行命名的,我们可以新建一个test.pig脚本:a = load '$input' as (.....);store a into '$output';然
2014-12-15 10:17:23 2302
原创 pig自定义load udf
假设文件test4.txt有这么两行数据:19800801133121212120181985080113313131313023规则是前8位为年月日,中间11位为手机号码,后3位表示的是年龄。我们可以自定义一个加载udf来加载这个文件package com.besttone.pig.udf.load;import java.io.IOException;im
2014-12-12 14:20:26 1846
原创 pig自定义FilterFunc实现数据流的过滤
假设test.txt文件中有如下数据:xiaojun 28 shanghaiyangna 24 lanzhouyangna 24 shanghaixiaojun 28 上海想实现过滤其中为上海的数据。我们可以写 :a = load 'test.txt' as (name:chararray,age:int,city:chara
2014-12-11 19:16:27 2242
转载 Apache Pig的一些基础概念及用法总结
转载必须注明出处:http://www.codelast.com/转载地址本文可以让刚接触pig的人对一些基础概念有个初步的了解。本文大概是互联网上第一篇公开发表的且涵盖大量实际例子的Apache Pig中文教程(由Google搜索可知),文中的大量实例都是作者Darran Zhang(website: codelast.com)在工作、学习中总结的经验或解决的问题
2014-12-11 10:53:12 932
原创 关于pig中文输入的问题
新建了一个文件test.txt,随便造了几条测试数据(tab键分隔,是pig默认的分隔方式,若要以其他分隔,load的时候load 'test.txt' using PigStorage(',') as .... 就可以以逗号分隔):xiaojun 28 上海yangna 24 兰州在pig grant shell中输入中文是没法解析的,会报错,比如在shel
2014-12-10 15:31:41 825
转载 Hadoop 新 MapReduce 框架 Yarn 详解
Hadoop MapReduceV2(Yarn) 框架简介原 Hadoop MapReduce 框架的问题对于业界的大数据存储及分布式处理系统来说,Hadoop 是耳熟能详的卓越开源分布式文件存储及处理框架,对于 Hadoop 框架的介绍在此不再累述,读者可参考 Hadoop 官方简介。使用和学习过老 Hadoop 框架(0.20.0 及之前版本)的同仁应该很熟悉如下的原 Ma
2014-12-10 09:43:46 767
原创 mapreduce程序如何跳过待处理文件的首行
首选明白一点,map的输入key为当前行在文件内的位置偏移量,所以首行的偏移量肯定是0,所以可以进行如下判断来跳过第一行的处理public void map(Object key, Text value, Context context) throws IOException, InterruptedException { log.info("----------key" + k
2014-12-09 11:19:49 4388 2
原创 基数排序(桶排序)
第一步以LSD为例,假设原来有一串数值如下所示:73, 22, 93, 43, 55, 14, 28, 65, 39, 81首先根据个位数的数值,在走访数值时将它们分配至编号0到9的桶子中:01 812 223 73 93 434 145 55 65678 289 39第二步接下
2014-12-08 12:53:54 878
原创 归并排序
归并排序 1、基本思想:归并(Merge)排序法是将两个(或两个以上)有序表合并成一个新的有序表,即把待排序序列分为若干个子序列,每个子序列是有序的。然后再把有序子序列合并为整体有序序列。 2、实例3、java实现 // 将r[i…m]和r[m +1 …n]归并到辅助数组rf[i…n] public static int[] merge(int[] a
2014-12-07 23:02:33 633
delphi写的DLL子窗体生成为主程序的TabSheet
2008-09-26
Dephi写的用IdUDP实现的P2P聊天软件
2008-09-26
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人