2011年07月_aidayei

12月 11月 10月 09月 08月 07月 06月 05月

原创 mahout中的kmeans简单实例

在Mahout_in_Action这本书中，有个kmeans的简单实例，可书中只给了源代码，而并没有指出要导入哪些包才能正确运行这本书在前面提到书中所有代码都是基于mahout0.4版本的，可是我发现这个kmeans的例子，却是基于mahout0.3的，有几个函数0.4版中是

2011-07-30 21:10:08 4043 1

原创 nutch抓取数据后生成的文件格式

nutch抓取数据后，生成五个文件夹：crawldb、index、indexs、linkdb和segments，这五个文件夹具体存放什么内容，前面文章里有解释，每个文件夹下，最后就是data和index文件看了一下将segment目录导出文本数据的源码SegmentReader.

2011-07-29 11:17:53 3386 1

原创 nutch搜索本地pdf文件

1.nutch把索引映射到solr，一定注意solrj的jar包版本一定要保持一致，不然会报版本不一致问题。我在用nutch1.3时，将索引映射到solr1.4.1时，就报版本不一致的错了，将solr换成3.1就好了用nutch1.2时，可以将索引映射到solr1.4.1，但不能

2011-07-27 20:39:19 2051

原创将lucene索引转化成mahout输入向量

mahout lucene.vector --dir /home/test/test-in/index/ --output /home/test/test-in/outdex/part-out.vec --field body --dictOut /home/test/test-in/outdex/dict.out 问题1：版本问题( "Exception in thread "main" o

2011-07-25 19:00:02 3923 2

原创 Eclipse下mahout实现推荐的简单实例

环境：ubuntu下的eclipse数据准备：test.txt第一列为UserID ，第二列为ItemID，第三列为Preference Value 即评分1,101,51,102,31,103,2.52,101,22,102,2.52,103,5

2011-07-22 19:17:05 21435 4

原创 Nutch抓取数据分析

由于刚开始理解错误，以为搜索索引可以作为数据挖掘的输入信息，后面才发现错了，由solr/nutch/lucene形成的只是搜索索引，只要由用户提供查询关键字，然后就可以查到该关键字来自哪一篇文档，并不是一篇文档的文字列表信息，而挖掘是需要有整篇文档的文字列表(档中所有单词的集合)

2011-07-20 18:00:22 6182 3

原创 mahout入门学习

因为要用到云计算下的数据挖掘，所以就简单看了一下mahout配置，mahout是一个基于Map/Reduce的机器学习算法库，运行在hadoop集群上废话不多说，下面看配置过程1.到mahout官网上下载mahout-distribution-0.4.tar.gz，这个是已经编译好的包，如果下的是源码包，则需要安装maven来编译2.前面已经搭过hadoop，这里不再说，下面设置环境变

2011-07-20 17:09:33 7728 3

原创 solr索引如何存储

我发现一直理解错了，我一直以为分布式索引和分布式搜索是两个不同的事情，其实是一样的.把索引分布在多台计算机上，不就是正好实现了分布式搜索吗?既然索引已经分布式存储了，,因为搜索就是基于索引的，那搜索就自然是分布式的啦。.前面看网上一些理解，一直以为分布式索引和分布式搜索是两个独

2011-07-18 16:14:46 13722 3

原创 Nutch入门学习

因为solr生成的索引是放在本地磁盘的，为了把搜索索引放到HDFS上，所以最近看了一下搭建分布式Nutch和Nutch+solr的集成Nutch的抓取流程：对目标网站完成抓取后，在保存抓取数据目录crawl 下产生了五个子目录： crawldb，linkdb，segment

2011-07-16 22:31:10 2180

原创 HDFS文件读写

1.用haddop提供的C API to HDFS来实现文件写入到HDFS中。过程中主要是在配置环境花了点时间2.用Java API实现对HDFS文件的读取。留个位，先列出主要内容，有时间再将其详细展开其实不管用哪种实现方式，都可以实现对HDFS文件的读写

2011-07-05 20:11:42 6641 2

原创 hbase入门学习

前面已对hadoop的MapReduce有了个大概认识，下面在看一下hbase中的MapReduce，TableMapper是继承Hadoop中的Mapper类的，TableReducer是继承Hadoop中的Reducer类的，详见hbase官网API详细说

2011-07-03 21:17:35 1999

原创 MapReduce入门学习

云计算的核心是MapReduce，这几天在云创公司看MapReduce，刚开始搭hadoop环境时，大概看了一下MapReduce的，但只是粗略的了解了一下。现在仔细看来，发现了解的还不够，比如MapRedcue整个过程中的数据流向，如何设置运行参数，应用于哪些场合等。最重要的是如何进行MapReduce编程，只有在充分理解MapReduce过程的情况下，才能

2011-07-02 13:47:58 3865