2011年08月_aidayei

12月 11月 10月 09月 08月 07月 06月 05月

原创 ubuntu安装后的常用操作记录

为了方便以后重装ubuntu，现将自己常用的ubuntu操作记录下来，以便以后快速查阅1.上网ubuntu设置静态IP:sudo vi /etc/network/interfaces注释掉#iface eth0 inet dhcp，修改为： auto e

2011-08-31 22:44:06 719

原创将聚类结果展示在网页上

Nutch中自带对搜索结果的聚类，使用开源的Carrot2，以插件形式被调用，大概看了一下nutch关于clustering这一块的搜索源码，它会显示出URL和title，可是用mahout做文本聚类的话，最后的聚类结果中，只有向量，当然自己可以将URL加进去，但如何显示标题呢

2011-08-31 22:17:08 3495 2

转载在Windows系统挂载linux NFS分享目录

下载 Microsoft Windows Services for UNIX 3.5 (约 216MB) Windows Services for UNIX 3.5 系统需求下载地址：http://download.microsoft.co

2011-08-28 10:43:57 3405

原创 linux用户权限

因为gluster挂载目录时，要使用sudo才能执行，所以挂载目录权限就变成root权限了，此时普通用户是无法往这个目录写数据的，所以就要解决普通用户使用mount时，前面不带sudo就可以执行，这样挂载目录普通用户就可以读写，这个怎么做呢？因为mount命令需要sudo才能

2011-08-25 19:51:59 2130

原创 Java调用linux终端命令

因为要实现用户注册成功后，创建gluster volume，所以就先看了一下，如何使用java调用linux终端命令示例源码如下：import java.io.InputStreamReader;import java.io.LineNumberReader;

2011-08-24 19:17:27 6425

原创 JSP重定向和转发

因为用户登陆后要提供文献搜索，即直接到nutch搜索界面，然后在此界面上再两个连接，一个是个人空间管理，一个是全局文档分析，那么如何将nutch的搜索结合起来呢？下面是两种方案1.单独做一个web注册登陆应用，然后登陆成功后，直接在转到nutch的搜索，即从tomcat中的webapp里的一个用户项目转到另一个项目，将请求从这个登陆项目直接在服务器内部转移到nutch.war解压出的对应搜

2011-08-24 18:45:40 814

原创 sqlite入门学习笔记2

前面简单学习了一下，如何在sqlite的控制台界面用命令建表及增删改查的操作，下面简单看一下，如何利用Java来操作sqlite数据库1.开发环境用eclipse，新建一个Java 工程MySqliteTest，新建一个类TestSQLite .java2.下载SQLit

2011-08-21 16:16:10 868

原创 sqlite入门学习笔记1

因为要做glusterfs多用户的实现，所以要有用户注册和登陆，而用户注册就要涉及到数据库，所以就用到了sqlite，为什么选它？1.小巧2.跨平台3. 免配置，和access一样，只要把数据库文件通过ftp上传到服务器上就可以使用，不需要服务器的额外支持4. 备

2011-08-20 12:10:13 1042

原创 Nutch更新索引

搜索引擎架构时都应当考虑到索引更新的问题，即当互联网上的网页发生改变（增加或者删除、修改）时搜索引擎端索引也应当进行相应的变化。Nutch也提供了一些方案用于更新索引，不过看起来比较烦琐。对于小量索引而言，可以采用最简单最聪明也是明笨的方法，即删除原有索引重新爬取网络。这种方式对

2011-08-18 16:13:47 1233

原创 GlusterFS中的RAID

一直不了解RAID是什么概念，这两天简单看了一下，RAID是“Redundant Array of Independent Disks”的缩写，中文意思是独立冗余磁盘阵列，磁盘阵列中针对不同的应用使用的不同技术，称为RAID level,而每一level都代表着不同技术，目前业界公认的标准是RAID 0~RAID 5。百度百科里有详细解释这里结合glusterfs的应用，说一下RAID0和R

2011-08-16 22:37:16 3209 1

原创 Nutch定时抓取网页

想让Nutch定时抓取某一网站内容，cron正是解决这个问题的工具。 cron是linux下定时执行工具，可在完全无人工干预的情况下作业。就像windows中的“任务计划”功能一样在Ubuntu server 10.04下，cron是被默认安装并启动的。通过/etc/cr

2011-08-13 18:18:04 2274

原创 mahout之canopy算法简介

K 均值聚类算法的最大的优点是：原理简单，实现起来也相对简单，同时执行效率和对于大数据量的可伸缩性还是较强的。然而缺点也是很明确的，首先它需要用户在执行聚类之前就有明确的聚类个数K的设置，这一点是用户在处理大部分问题时都不太可能事先知道的，一般需要通过多次试验找出一个最优的 K

2011-08-12 15:34:53 5535 2

原创常见中文分词比较

对于英文文档，其分词的过程很简单。中文文本的分类难度较大，主要是因为汉语分词问题的困难，即为此需要建立完整的汉语概念体系、汉语语法、语义和语用分析是十分复杂的。 lucene包自带的三种中文分词：以“我是中国人”这句话作分词举例1.StandardAnalyzer:

2011-08-10 15:32:15 4657 2

原创 mahout应用kmeans进行文本聚类2之——实例分析

在Mahout_in_Action这本书中，给了一个文本的聚类实例，并提供了原始输入数据，下面结合例子说明作为聚类算法的主要应用场景 - 文本分类，对文本信息的建模也是一个常见的问题。在信息检索研究领域已经有很好的建模方式，就是信息检索领域中最常用的向量空间模型词频 -

2011-08-09 22:49:06 9977 6

原创 mahout应用kmeans进行文本聚类1之——输入输出分析

输入分析：mahout下处理的文件必须是SequenceFile格式的，所以需要把txtfile转换成sequenceFile，而聚类必须是向量格式的，mahout提供下面两个命令来将文本转成向量形式1.mahout seqdirectory：将文本文件转成Sequenc

2011-08-09 22:45:16 10171 3

原创 mahout中的kmeans结果分析

运行官网上的mahout kmeas示例，结果文件夹有clusteredPoints，clusters-N，data，用命令mahout seqdumper仔细看了一下结果文件clusteredPoints：存放的是最后聚类的结果，将cluster-id和documents-

2011-08-06 17:41:05 8113 3

原创编译mahout源码并导到eclipse中

为什么要编译源码呢?其实直接用二进制包更省事，只是为了方便读取源码和修改源码1.直接在mahout安装目录下使用mvn install，这样mahout目录下的所有文件就都编译并打包安装，可以在各模块下的target目录中看到class目录和生成的jar包2.如果只想编译部分，例如编译core：更换到core目录下，mvn compile，此时没有生成jar包，只生成了.class文件，之

2011-08-05 22:54:48 6400 4

原创 Nutch爬取与Solr搜索结合

不知道为什么在Nutch-1.3中没了Nutch自带的搜索war文件，而且在Nutch-1.3中，抓取文件后，生成的目录只有crawldb，linkdb，segments，而没有了indexs和index目录查了一下官网Wiki，上面是把Nutch的索引映射到solr，用solr来提供搜索功能，详见官网Wiki说明：http://wiki.apache.org/nutch/RunningNut

2011-08-03 17:10:48 6679 2