自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(20)
  • 资源 (18)
  • 收藏
  • 关注

原创 ubuntu安装后的常用操作记录

为了方便以后重装ubuntu,现将自己常用的ubuntu操作记录下来,以便以后快速查阅1.上网ubuntu设置静态IP:sudo vi /etc/network/interfaces注释掉#iface eth0 inet dhcp,修改为:    auto e

2011-08-31 22:44:06 719

原创 将聚类结果展示在网页上

Nutch中自带对搜索结果的聚类,使用开源的Carrot2,以插件形式被调用,大概看了一下nutch关于clustering这一块的搜索源码,它会显示出URL和title,可是用mahout做文本聚类的话,最后的聚类结果中,只有向量, 当然自己可以将URL加进去,但如何显示标题呢

2011-08-31 22:17:08 3495 2

转载 在Windows系统挂载linux NFS分享目录

下载 Microsoft Windows Services for UNIX 3.5 (约 216MB)        Windows Services for UNIX 3.5 系统需求       下载地址:http://download.microsoft.co

2011-08-28 10:43:57 3405

原创 linux用户权限

因为gluster挂载目录时,要使用sudo才能执行,所以挂载目录权限就变成root权限了,此时普通用户是无法往这个目录写数据的,所以就要解决普通用户使用mount时,前面不带sudo就可以执行,这样挂载目录普通用户就可以读写,这个怎么做呢?因为mount命令需要sudo才能

2011-08-25 19:51:59 2130

原创 Java调用linux终端命令

因为要实现用户注册成功后,创建gluster volume,所以就先看了一下,如何使用java调用linux终端命令示例源码如下:import java.io.InputStreamReader;import java.io.LineNumberReader;

2011-08-24 19:17:27 6425

原创 JSP重定向和转发

因为用户登陆后要提供文献搜索,即直接到nutch搜索界面,然后在此界面上再两个连接,一个是个人空间管理,一个是全局文档分析,那么如何将nutch的搜索结合起来呢?下面是两种方案1.单独做一个web注册登陆应用,然后登陆成功后,直接在转到nutch的搜索,即从tomcat中的webapp里的一个用户项目转到另一个项目,将请求从这个登陆项目直接在服务器内部转移到nutch.war解压出的对应搜

2011-08-24 18:45:40 814

原创 sqlite入门学习笔记2

前面简单学习了一下,如何在sqlite的控制台界面用命令建表及增删改查的操作,下面简单看一下,如何利用Java来操作sqlite数据库1.开发环境用eclipse,新建一个Java 工程MySqliteTest,新建一个类TestSQLite .java2.下载SQLit

2011-08-21 16:16:10 868

原创 sqlite入门学习笔记1

因为要做glusterfs多用户的实现,所以要有用户注册和登陆,而用户注册就要涉及到数据库,所以就用到了sqlite,为什么选它?1.小巧2.跨平台3. 免配置,和access一样,只要把数据库文件通过ftp上传到服务器上就可以使用,不需要服务器的额外支持4. 备

2011-08-20 12:10:13 1042

原创 Nutch更新索引

搜索引擎架构时都应当考虑到索引更新的问题,即当互联网上的网页发生改变(增加或者删除、修改)时搜索引擎端索引也应当进行相应的变化。Nutch也提供了一些方案用于更新索引,不过看起来比较烦琐。对于小量索引而言,可以采用最简单最聪明也是明笨的方法,即删除原有索引重新爬取网络。这种方式对

2011-08-18 16:13:47 1233

原创 GlusterFS中的RAID

一直不了解RAID是什么概念,这两天简单看了一下,RAID是“Redundant Array of Independent Disks”的缩写,中文意思是独立冗余磁盘阵列,磁盘阵列中针对不同的应用使用的不同技术,称为RAID level,而每一level都代表着不同技术,目前业界公认的标准是RAID 0~RAID 5。 百度百科里有详细解释这里结合glusterfs的应用,说一下RAID0和R

2011-08-16 22:37:16 3209 1

原创 Nutch定时抓取网页

想让Nutch定时抓取某一网站内容,cron正是解决这个问题的工具。 cron是linux下定时执行工具,可在完全无人工干预的情况下作业。就像windows中的“任务计划”功能一样在Ubuntu server 10.04下,cron是被默认安装并启动的。通过/etc/cr

2011-08-13 18:18:04 2274

原创 mahout之canopy算法简介

K 均值聚类算法的最大的优点是:原理简单,实现起来也相对简单,同时执行效率和对于大数据量的可伸缩性还是较强的。然而缺点也是很明确的,首先它需要用户在执行聚类之前就有明确的聚类个数K的设置,这一点是用户在处理大部分问题时都不太可能事先知道的,一般需要通过多次试验找出一个最优的 K

2011-08-12 15:34:53 5535 2

原创 常见中文分词比较

对于英文文档,其分词的过程很简单。中文文本的分类难度较大,主要是因为汉语分词问题的困难,即为此需要建立完整的汉语概念体系、汉语语法、语义和语用分析是十分复杂的。 lucene包自带的三种中文分词:以“我是中国人”这句话作分词举例1.StandardAnalyzer:

2011-08-10 15:32:15 4657 2

原创 mahout应用kmeans进行文本聚类2之——实例分析

在Mahout_in_Action这本书中,给了一个文本的聚类实例,并提供了原始输入数据,下面结合例子说明 作为聚类算法的主要应用场景 - 文本分类,对文本信息的建模也是一个常见的问题。在信息检索研究领域已经有很好的建模方式,就是信息检索领域中最常用的向量空间模型词频 -

2011-08-09 22:49:06 9977 6

原创 mahout应用kmeans进行文本聚类1之——输入输出分析

输入分析:mahout下处理的文件必须是SequenceFile格式的,所以需要把txtfile转换成sequenceFile,而聚类必须是向量格式的,mahout提供下面两个命令来将文本转成向量形式1.mahout seqdirectory:将文本文件转成Sequenc

2011-08-09 22:45:16 10171 3

原创 mahout中的kmeans结果分析

运行官网上的mahout kmeas示例,结果文件夹有clusteredPoints,clusters-N,data,用命令mahout seqdumper仔细看了一下结果文件clusteredPoints:存放的是最后聚类的结果,将cluster-id和documents-

2011-08-06 17:41:05 8113 3

原创 编译mahout源码并导到eclipse中

为什么要编译源码呢?其实直接用二进制包更省事,只是为了方便读取源码和修改源码1.直接在mahout安装目录下使用mvn install,这样mahout目录下的所有文件就都编译并打包安装,可以在各模块下的target目录中看到class目录和生成的jar包2.如果只想编译部分,例如编译core:更换到core目录下,mvn compile,此时没有生成jar包,只生成了.class文件,之

2011-08-05 22:54:48 6400 4

原创 Nutch爬取与Solr搜索结合

不知道为什么在Nutch-1.3中没了Nutch自带的搜索war文件,而且在Nutch-1.3中,抓取文件后,生成的目录只有crawldb,linkdb,segments,而没有了indexs和index目录查了一下官网Wiki,上面是把Nutch的索引映射到solr,用solr来提供搜索功能,详见官网Wiki说明:http://wiki.apache.org/nutch/RunningNut

2011-08-03 17:10:48 6679 2

原创 mahout seq2sparse源文件解析

mahout seq2sparse对应的源文件是SparseVectorsFromSequenceFiles.java首先用DocumentProcessor.tokenizeDocuments方法,将(Text,Text)变成(Text,StringTuple)Stri

2011-08-03 16:11:15 2352

原创 mahout读取nutch抓取数据后的文件

1.mahout seqdumper在读取data文件时,报少ParseText包,把这个包导进来后,就可以正确读取了2.mahout seq2sparse转向量是关键,可这一步报类型转换错误,mahout中要的key-value是(Text,Text)类型

2011-08-01 20:23:42 1930

计算机笔试题汇总

计算机笔常见笔试题和面试题,希望对大家有帮助

2011-10-18

机器学习实验报告

朴素贝叶斯和logistic回归分类做出来的实验结果

2011-10-18

人工智能传教士过河问题

人工智能经典问题之传教士过河,有状态空间详解和实现代码

2011-04-08

OpenCV中文帮助文档

OpenCV是一个学习图像处理很好的库,可以方便集成在C++开发环境中,具体配置可参考官方网站

2011-01-22

JSF入门及实用教程

一本学习JSF的入门教程,实用易学,快速上手

2010-11-04

Oracle入门教程

Oracle基础教程,一本学习Oracle的好书

2010-11-04

Html解析 parse html

利用Qt中的WebKit类提取Html中的JS代码,方便分析恶意代码

2010-07-15

数据结构1800道试题及答案

学习数据结构的好资料,包括所有试题和答案

2010-05-06

图像处理与Matlab

matlab做图像处理的入门教材,适合新手

2010-05-06

机器学习Weka的入门教程

Weka is a good tool for Machine Learning

2010-04-29

一本matlab入门的帮助文档

一本matlab入门的帮助文档,希望对你有帮助

2009-11-20

matlab入门经典教程

一本matlab入门很好用的教程,希望对你有帮助

2009-11-20

用Dom树解析XML

用QtXml实现的xml解析,单码很简单,运行之前请注意配好Qt环境

2009-11-20

十分钟自学MySQL

《teach yourself MySQL in 10 minutes》是一本学MySQL很好的书,顺便还可以学一下英语,都是很简单的语句,不像很多外语专业书,看着就很头大,这本很好,基本都能看得懂

2009-11-16

Win32API中文手册

win32API中文手册,格式chm,方便大家查用

2009-11-16

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除