2006年12月

转载 hadoop 学习

Hadoop 的文件系统,最重要是 FileSystem 类,以及它的两个子类 LocalFileSystem 和 DistributedFileSystem。 这里先分析 FileSystem。 抽象类 FileSystem,提高了一系列对文件/目录操作的接口,还有一些辅助方法。分别说明一下: 1. open,create,delete,rename等,非abstract,部分返回 FSDataOutputStream,作为流进行处理。 2. openRaw,createRaw,renameRaw,deleteRaw等,abstract,部分返回 FSInputStream,可以随机访问。 3. lock,release,copyFromLocalFile,moveFromLocalFile,copyToLocalFile 等abstract method,提供便利作用,从方法命名可以看出作用。阅读全文>

发表于 @ 2006年12月10日 14:07:00|评论(loading...)|编辑

转载 hadoop 初记-试用

Hadoop Learning (1) My Demo Statistic.java 1. 初始化配置文件,临时文件存放目录,还有具体的Job。 Configuration defaults = new Configuration(); File tempDir = new File("tmp/stat-temp-"+Integer.toString( new Random().nextInt(Integer.MAX_VALUE))); JobConf statJob = new JobConf(defaults, Statistic.class); 2. 设置Job的相关参数 阅读全文>

发表于 @ 2006年12月10日 13:58:00|评论(loading...)|编辑

转载 Hadoop笔记--不需要分布式编程经验地分布式编程

Hadoop 是 Google labs 的MapReduce的一个实现,Nutch项目的全部数据处理都构建在其之上。MapReduce是一种简化的分布式编程模式,让程序可以自动在普通机器组成的集群中以并行方式分布执行。 就如同java程序员可以不考虑内存泄露一样,MapReduce程序员也不许要关心海量数据如何被分配到多台机器上,不需要考虑机器失效的处理,不需要考虑这些机器间如何协作共同完成工作,程序员不需要什么并发处理或者分布式系统的经验,就可以进行分布式的编程。 MapReduce来源于函数式编程的Map,Reduce概念,Map是映射,Reduce是规约。说了非常简单,就真的是非常简单的,先看 Hadoop自带的sample-WordCount ,再看Nutch里的Indexer,Fetcher两个实战的例子,最后阅读Hadoop wiki 上的HadoopMapReduce,很快就可以上手: 阅读全文>

发表于 @ 2006年12月10日 13:44:00|评论(loading...)|编辑

原创 新闻聚类系统---news.baidu.com

  要做一个新闻聚类系统,大概就和http://news.baidu.com类似的。 可是没有什么想法呀!   怎么办呢?   这样的新闻,   要有抓取,存到一种“格式”里,或XML,或HDFS或DB里,   二是要用分类器,基于SVM也好,KNN也好,   三是要有聚类-carrot2,或其它。   这样,三个重要组件都已经想到了,接下来就要设计了 -------------------------------------------   首选,我先省略第二步,不用分类器来分类,而是自己指定抓取的源,这样只要做一个抓取和聚类就可以做出和百度新闻类似的系统了。然后后再训练一个好的分类器。   我的思路就是这样,接下来就开始分析,动手了。 good luck!阅读全文>

发表于 @ 2006年12月01日 22:31:00|评论(loading...)|编辑

Csdn Blog version 3.1a
Copyright © 吴楚狂生