Hadoop
lingerlanlan
我知道这些日子
你要承担多少哀伤
才可以面对破碎的梦想
展开
-
《Programming Hive》读书笔记(一)Hadoop和hive环境搭建
《Programming Hive》读书笔记(一)Hadoop和Hive环境搭建 先把基本的技术和工具学好,才能更高效地思考和工作。原创 2014-11-12 00:26:14 · 2507 阅读 · 0 评论 -
map-reduce入门
map-reduce入门 map-reduce其实是一种编程范式,从统计词频(wordCount)程序来讲解map-reduce的思想最容易理解。 给定一个文件,里面的内容如下,要求统计每个单词的词频。Hello AngelaI love you AngelaHow are you Angela map(每个单词处理为一行,key,value形原创 2015-07-01 19:34:08 · 1773 阅读 · 0 评论 -
给大数据文件的每一行产生唯一的id
给大数据文件的每一行产生唯一的id4个主要思路:1 单线程处理2 普通多线程3 hive4 Hadoop 搜到一些参考资料《Hadoop实战》的笔记-2、Hadoop输入与输出https://book.douban.com/annotation/17068812/TextInputFormat:文件偏移量:整行数据但是这个偏移量,貌似原创 2015-06-09 19:42:23 · 4943 阅读 · 0 评论 -
相似度计算map-reduce实现思路
相似度计算map-reduce实现思路输入:1 f(1)2 f(2)3 f(3)4 f(4) mapper:1,2 f(1)1,3 f(1)1,4 f(1)1,2 f(2)2,3 f(2)2,4 f(2)1,3 f(3)2,3 f(3)3,4 f(3)1,4 f(4)2,4 f(4)3,4 f(4)原创 2015-05-31 16:57:51 · 2208 阅读 · 0 评论 -
Hive自定义函数UDAF开发
Hive自定义函数UDAF开发Hive支持自定义函数,UDAF是接受多行,输出一行。通常是group by时用到这种函数。其实最好的学习资料就是官方自带的examples了。我这里用的是0.10版本hive,所以对于的examples在https://github.com/apache/hive/tree/branch-0.10/contri原创 2014-12-14 00:38:55 · 3223 阅读 · 0 评论 -
Hive自定义函数UDF开发
Hive自定义函数UDF开发Hive支持自定义函数,UDF是接受一行,输出一行。函数通常是接受一行中某几个字段作为参数,然后返回一个值。值得注意的是,hive的一个特别之处是数据类型很丰富,一个字段不仅仅可以是string,int,还可以是map,list。其实最好的学习资料就是官方自带的examples了。我这里用的是0.10版本hive,所以对于的examples在原创 2014-12-14 00:29:07 · 2120 阅读 · 0 评论 -
maven打包hadoop项目(含第三方jar)
maven打包hadoop项目(含第三方jar) 问题背景:1 写map-reduce程序,用到第三方jar,怎么打包并提交项目到服务器执行。2 mahout中itembased算法,将uid从string映射为long。 我这里实现的具体功能是:Mahout的itembased算法的数据格式是:uid,vid,score。其中uid和vid必须是数字型(long),s原创 2014-12-25 00:12:46 · 6573 阅读 · 1 评论 -
mahout中map-reduce版的itembased推荐算法思想
mahout中map-reduce版的itembased推荐算法思想最近想写一个map-reduce版的userbased,于是先研究mahout中已实现的itembased算法。itembased看起来简单,但是深入到实现细节还是有点复杂的,用map-reduce实现就更复杂了。 itembased的本质:预测某用户user对某物品item的打分,看看该用户对其他原创 2015-01-12 23:53:12 · 2180 阅读 · 0 评论 -
java调用API操作HDFS
java调用API操作HDFSpackage mongodb;import java.io.BufferedReader;import java.io.IOException;import java.io.InputStreamReader;import java.net.URI;import java.util.Arrays;import org.原创 2015-01-31 15:38:41 · 2910 阅读 · 0 评论 -
mahout入门指南之基于mahout的itembased算法
基于mahout的itembased算法 其实mahout分布式上只是实现了部分算法。比如推荐算法中Item-based和slopone都有hadoop实现和单机版实现,User-based没有分布式实现。 Mahout已实现的算法(单机版和分布式版)https://mahout.apache.org/users/basics/algorithms.html 大多原创 2014-12-22 23:20:44 · 3223 阅读 · 0 评论 -
mahout(或者hadoop)优先使用用户指定的classpath加载jar包
mahout(或者hadoop)优先使用用户指定的classpath加载jar包问题:使用mahout0.8时,出现java.lang.NoSuchMethodError: org.apache.lucene.util.PriorityQueue类似http://www.warski.org/blog/2013/10/using-amazons-elastic-map-reduce-to-compute-recommendations-with-apache-mahout-0-8/原因:$HADO原创 2015-01-07 23:17:13 · 6015 阅读 · 3 评论 -
《Programming Hive》读书笔记(二)Hive基础知识
《Programming Hive》读书笔记(二)Hive基础知识阅读方法:第一遍读是浏览,建立知识索引,因为有些知识不一定能用到,知道就好。感兴趣的部分可以多研究。以后用的时候再详细看,并结合其他资料一起。Chapter 3.Data Types and File Formats原始数据类型和集合数据类型Select出来的数据,列与列之间的分隔符可以指定原创 2014-11-15 22:43:42 · 2413 阅读 · 0 评论 -
mahout的itembased推荐算法改造
mahout的itembased推荐算法改造需求背景:itembased主要是两个步骤:1 item相似度的计算2根据user所评分过的item,以及item之间的相似度,预测未知item的分数 mahout的itembased现有的问题:mahout集成的itembased算法,里面的每个步骤耦合度太强,难以分割。 我们希望上面两个步骤能分原创 2016-02-16 11:05:53 · 1698 阅读 · 0 评论