hadoop
xceman1997
这个作者很懒,什么都没留下…
展开
-
【hadoop学习】在Mac OS上配置hadoop伪分布式环境【上】
最近大数据很流行,而hadoop又是分析大数据的有力工具,加之工作需要,我近期也在学习hadoop的相关知识。学习归学习,还是要实践;而实践,得先有环境。看到教科书上的一些方法,都是在linux上配置;mac与linux相近,我就在mac os上实践了。mac os版本是10.8.1,配置的是单机伪分布式环境,目的是学习hadoop程序编写;至于hadoop集群搭建,暂时不感兴趣。主要原创 2012-10-07 20:22:26 · 5595 阅读 · 0 评论 -
java codebase的Hadoop应用中使用Darts
背景Darts是双数组的c++ (template)实现,用来存储、查询大规模词表非常方便。缺点是只能够使用“字符串完全匹配”,而不能查询“某个字符串是否是另外一个字符串的字串”这样的需求。如下原因结合起来,促使要在java codebase中使用Darts:1. 词表规模巨大,存储、查询效率很低2. Darts是c++实现,现有Hadoop cod原创 2012-12-19 21:25:00 · 1352 阅读 · 0 评论 -
开源点评:Protocol Buffers介绍
原文链接:http://blog.csdn.net/program_think/article/details/4229773今天来介绍一下“Protocol Buffers”(以下简称protobuf)这个玩意儿。本来俺在构思“生产者/消费者模式”系列的下一个帖子:关于生产者和消费者之间的数据传输格式。由于里面扯到了protobuf,想想干脆单独开一个帖子算了。 ★pr转载 2012-12-09 16:06:00 · 703 阅读 · 0 评论 -
Protocol Buffer Basics: C++
直接从https://developers.google.com/上copy&paste过来的。This tutorial provides a basic C++ programmer's introduction to working with protocol buffers. By walking through creating a simple example ap转载 2012-12-09 17:33:25 · 887 阅读 · 0 评论 -
【java学习】Jni在hadoop上的使用(中)
上一篇博文里,已经在linux环境下实现单机版JNI的验证。这一篇,进入“阶段二”,将JNI程序放到hadoop上跑通。 这个阶段的尝试我吃了不少苦头,主要是路径问题:hadoop将我写好的jar包分发到每个tasknode上,同时,我们要把.so也分发到相同路径下,并“告诉”tasknode,使得jvm在运行jar包的时候能够找到这个动态库。还是按顺序说。写hadoop程原创 2012-12-05 20:39:23 · 2759 阅读 · 2 评论 -
【java学习】Jni在hadoop上的使用(上)
遇到的需求很简单,我们有一个性能很好的分词器,用c++实现的,现在想在java写的hadoop的程序中使用它,咋办?如果只是使用hadoop,用c++ pipes实现hadoop程序,再调用c++实现的分词器(源代码调用或者动态库调用)就很简单,不存在上面的问题。不过,由于Legacy原因(其实就是种种原因),不能放弃java版本的hadoop程序,才会有以上问题。上网上搜了一原创 2012-12-04 23:23:58 · 2864 阅读 · 0 评论 -
【java学习】Jni在hadoop上的使用(下)
有了前两篇博文的铺垫,这一篇,进入“阶段三”,即在hadoop中调用.so动态库,在动态库中读取文件。其实苦头都在前面吃了,这部分相对很顺利。首先,在动态库.so的java wrapper中增加一个函数接口Init,用来load词典文件:package FakeSegmentForJni;/** * * This class is for verify原创 2012-12-07 20:29:08 · 1948 阅读 · 4 评论 -
【hadoop学习】在伪分布式hadoop上实践word count程序——c/c++ streaming版本(未完)
很久没有原创了,说明我很久没有学习了。无论是比较忙还是比较懒,无所谓了,继续学习hadoop中。不是所有人都喜欢java,我就不喜欢,并且从前还挺反感java程序的——效率低,而且把内存细节封装了,让我这个c/c++程序员很不适应。streaming是hadoop允许其他编程语言(c/c++、脚本语言、管道命令)融合到hadoop框架的一个工具。主要是通过输入输出流来交换数据,所以叫做原创 2012-11-17 22:57:48 · 1239 阅读 · 0 评论 -
【hadoop学习】在伪分布式hadoop上实践word count程序——c/c++ pipes版本
就像上一篇博文中说的,其实最大的障碍在于hadoop自带的pipes静态库和动态库都是为linux平台的,而不是为MacOS平台的。在MacOS下,想要使用pipes,需要重新编译库文件。编译过程和方法见上一篇博文。其他的,似乎没有太多好说的。我就列出代码吧。hadoopWordCountPipe.cpp的内容如下:// the header files o原创 2012-10-23 23:30:34 · 1868 阅读 · 1 评论 -
【hadoop学习】在MacOS上编译 hadoop pipes 库
前几天在自己的macbook pro上配置了hadoop伪分布式系统,用java写word count程序,运行成功,请参考《在Mac OS上配置hadoop伪分布式环境》和《在伪分布式hadoop上手把手实践word count程序》等博文。不过我主要编程语言是c/c++,还是很有冲动用c/c++写hadoop程序的。c/c++程序在hadoop上通过pipes的机制来运行,pipe原创 2012-10-23 23:06:53 · 1914 阅读 · 2 评论 -
【资源】hadoop资料汇总
Hadoop官方的中文文档http://hadoop.apache.org/common/docs/r0.18.2/cn/index.htmlHadoop学习资料 -- 这里面总结了很多的东西,值得一一细看http://cloud21.javaeye.com/blog/607175关于Hadoop的两本书 -- 有电子书下载http://caibinbupt.javae转载 2012-10-15 11:26:51 · 1563 阅读 · 0 评论 -
【hadoop学习】在伪分布式hadoop上手把手实践word count程序【下】
3. 准备输入的数据文件前段时间看svm,也参考了libsvm,其中有个分类测试数据,内容如下:-1 5:1 7:1 14:1 19:1 39:1 40:1 51:1 63:1 67:1 73:1 74:1 76:1 78:1 83:1 -1 3:1 6:1 17:1 22:1 36:1 41:1 53:1 64:1 67:1 73:1 74:1 76:1 80:1 83:1原创 2012-10-11 23:50:50 · 1484 阅读 · 0 评论 -
【hadoop学习】在伪分布式hadoop上手把手实践word count程序【上】
前两天在Mac OS 10.8.1上搭建了hadoop伪分布式系统,这两天自娱自乐,用java写了个word count程序,在上面运行成功。因为java不是我主要编程语言,而且控制台下编译环境也不熟,又是在业余时间自己折腾,因此折腾了几天,呵呵,惭愧。下面记录下整个过程,包括这两天踩到的各种坑儿。1. word count 程序撰写这个容易,打开vim,直接按照教科书上的内容敲代原创 2012-10-11 23:27:38 · 1639 阅读 · 0 评论 -
【hadoop学习】在Mac OS上配置hadoop伪分布式环境【下】
2. 配置mac os 自身环境这个主要是配置ssh环境。先在terminal里面输入ssh localhost会有错误提示信息,表示当前用户没有权限。这个多半是系统为安全考虑,默认设置的。更改设置如下:进入system preference --> sharing --> 勾选remote login,并设置allow access for all users。再次输原创 2012-10-07 21:06:04 · 4071 阅读 · 0 评论 -
【转载】分布式机器学习的故事
原文地址:http://cxwangyi.github.io/2014/01/20/distributed-machine-learning/从毕业加入Google开始做分布式机器学习,到后来转战腾讯广告业务,至今已经七年了。我想说说我见到的故事和我自己的实践经历。这段经历给我的感觉是:虽然在验证一个新的并行算法的正确性的时候,我们可以利用现有框架,尽量快速实现,但是任何一个有转载 2014-02-20 17:42:29 · 1330 阅读 · 0 评论