自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(12)
  • 资源 (18)
  • 收藏
  • 关注

原创 mahout中的kmeans简单实例

在Mahout_in_Action这本书中,有个kmeans的简单实例,可书中只给了源代码,而并没有指出要导入哪些包才能正确运行这本书在前面提到书中所有代码都是基于mahout0.4版本的,可是我发现这个kmeans的例子,却是基于mahout0.3的,有几个函数0.4版中是

2011-07-30 21:10:08 4043 1

原创 nutch抓取数据后生成的文件格式

nutch抓取数据后,生成五个文件夹:crawldb、index、indexs、linkdb和segments,这五个文件夹具体存放什么内容,前面文章里有解释,每个文件夹下,最后就是data和index文件看了一下将segment目录导出文本数据的源码SegmentReader.

2011-07-29 11:17:53 3386 1

原创 nutch搜索本地pdf文件

1.nutch把索引映射到solr,一定注意solrj的jar包版本一定要保持一致,不然会报版本不一致问题。我在用nutch1.3时,将索引映射到solr1.4.1时,就报版本不一致的错了,将solr换成3.1就好了用nutch1.2时,可以将索引映射到solr1.4.1,但不能

2011-07-27 20:39:19 2051

原创 将lucene索引转化成mahout输入向量

mahout lucene.vector --dir /home/test/test-in/index/ --output /home/test/test-in/outdex/part-out.vec --field body --dictOut /home/test/test-in/outdex/dict.out 问题1:版本问题( "Exception in thread "main" o

2011-07-25 19:00:02 3923 2

原创 Eclipse下mahout实现推荐的简单实例

环境:ubuntu下的eclipse数据准备:test.txt第一列为UserID ,第二列为ItemID,第三列为Preference Value 即评分1,101,51,102,31,103,2.52,101,22,102,2.52,103,5

2011-07-22 19:17:05 21435 4

原创 Nutch抓取数据分析

由于刚开始理解错误,以为搜索索引可以作为数据挖掘的输入信息,后面才发现错了,由solr/nutch/lucene形成的只是搜索索引,只要由用户提供查询关键字,然后就可以查到该关键字来自哪一篇文档,并不是一篇文档的文字列表信息,而挖掘是需要有整篇文档的文字列表(档中所有单词的集合)

2011-07-20 18:00:22 6182 3

原创 mahout入门学习

因为要用到云计算下的数据挖掘,所以就简单看了一下mahout配置,mahout是一个基于Map/Reduce的机器学习算法库,运行在hadoop集群上废话不多说,下面看配置过程1.到mahout官网上下载mahout-distribution-0.4.tar.gz,这个是已经编译好的包,如果下的是源码包,则需要安装maven来编译2.前面已经搭过hadoop,这里不再说,下面设置环境变

2011-07-20 17:09:33 7728 3

原创 solr索引如何存储

我发现一直理解错了,我一直以为分布式索引和分布式搜索是两个不同的事情,其实是一样的.把索引分布在多台计算机上,不就是正好实现了分布式搜索吗?既然索引已经分布式存储了,,因为搜索就是基于索引的,那搜索就自然是分布式的啦。.前面看网上一些理解,一直以为分布式索 引和分布式搜索是两个独

2011-07-18 16:14:46 13722 3

原创 Nutch入门学习

因为solr生成的索引是放在本地磁盘的,为了把搜索索引放到HDFS上,所以最近看了一下搭建分布式Nutch和Nutch+solr的集成Nutch的抓取流程:对目标网站完成抓取后, 在保存抓取数据目录crawl 下产生了五个子目录: crawldb,linkdb,segment

2011-07-16 22:31:10 2180

原创 HDFS文件读写

1.用haddop提供的C API to HDFS来实现文件写入到HDFS中。过程中主要是在配置环境花了点时间2.用Java API实现对HDFS文件的读取。 留个位,先列出主要内容,有时间再将其详细展开 其实不管用哪种实现方式,都可以实现对HDFS文件的读写

2011-07-05 20:11:42 6641 2

原创 hbase入门学习

前面已对hadoop的MapReduce有了个大概认识,下面在看一下hbase中的MapReduce,TableMapper是继承Hadoop中的Mapper类的,TableReducer是继承Hadoop中的Reducer类的,详见hbase官网API详细说

2011-07-03 21:17:35 1999

原创 MapReduce入门学习

        云计算的核心是MapReduce,这几天在云创公司看MapReduce,刚开始搭hadoop环境时,大概看了一下MapReduce的,但只是粗略的了解了一下。现在仔细看来,发现了解的还不够,比如MapRedcue整个过程中的数据流向,如何设置运行参数,应用于哪些场合等。       最重要的是如何进行MapReduce编程,只有在充分理解MapReduce过程的情况下,才能

2011-07-02 13:47:58 3865

计算机笔试题汇总

计算机笔常见笔试题和面试题,希望对大家有帮助

2011-10-18

机器学习实验报告

朴素贝叶斯和logistic回归分类做出来的实验结果

2011-10-18

人工智能传教士过河问题

人工智能经典问题之传教士过河,有状态空间详解和实现代码

2011-04-08

OpenCV中文帮助文档

OpenCV是一个学习图像处理很好的库,可以方便集成在C++开发环境中,具体配置可参考官方网站

2011-01-22

JSF入门及实用教程

一本学习JSF的入门教程,实用易学,快速上手

2010-11-04

Oracle入门教程

Oracle基础教程,一本学习Oracle的好书

2010-11-04

Html解析 parse html

利用Qt中的WebKit类提取Html中的JS代码,方便分析恶意代码

2010-07-15

数据结构1800道试题及答案

学习数据结构的好资料,包括所有试题和答案

2010-05-06

图像处理与Matlab

matlab做图像处理的入门教材,适合新手

2010-05-06

机器学习Weka的入门教程

Weka is a good tool for Machine Learning

2010-04-29

一本matlab入门的帮助文档

一本matlab入门的帮助文档,希望对你有帮助

2009-11-20

matlab入门经典教程

一本matlab入门很好用的教程,希望对你有帮助

2009-11-20

用Dom树解析XML

用QtXml实现的xml解析,单码很简单,运行之前请注意配好Qt环境

2009-11-20

十分钟自学MySQL

《teach yourself MySQL in 10 minutes》是一本学MySQL很好的书,顺便还可以学一下英语,都是很简单的语句,不像很多外语专业书,看着就很头大,这本很好,基本都能看得懂

2009-11-16

Win32API中文手册

win32API中文手册,格式chm,方便大家查用

2009-11-16

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除