- 博客(20)
- 资源 (18)
- 收藏
- 关注
原创 ubuntu安装后的常用操作记录
为了方便以后重装ubuntu,现将自己常用的ubuntu操作记录下来,以便以后快速查阅1.上网ubuntu设置静态IP:sudo vi /etc/network/interfaces注释掉#iface eth0 inet dhcp,修改为: auto e
2011-08-31 22:44:06 719
原创 将聚类结果展示在网页上
Nutch中自带对搜索结果的聚类,使用开源的Carrot2,以插件形式被调用,大概看了一下nutch关于clustering这一块的搜索源码,它会显示出URL和title,可是用mahout做文本聚类的话,最后的聚类结果中,只有向量, 当然自己可以将URL加进去,但如何显示标题呢
2011-08-31 22:17:08 3495 2
转载 在Windows系统挂载linux NFS分享目录
下载 Microsoft Windows Services for UNIX 3.5 (约 216MB) Windows Services for UNIX 3.5 系统需求 下载地址:http://download.microsoft.co
2011-08-28 10:43:57 3405
原创 linux用户权限
因为gluster挂载目录时,要使用sudo才能执行,所以挂载目录权限就变成root权限了,此时普通用户是无法往这个目录写数据的,所以就要解决普通用户使用mount时,前面不带sudo就可以执行,这样挂载目录普通用户就可以读写,这个怎么做呢?因为mount命令需要sudo才能
2011-08-25 19:51:59 2130
原创 Java调用linux终端命令
因为要实现用户注册成功后,创建gluster volume,所以就先看了一下,如何使用java调用linux终端命令示例源码如下:import java.io.InputStreamReader;import java.io.LineNumberReader;
2011-08-24 19:17:27 6425
原创 JSP重定向和转发
因为用户登陆后要提供文献搜索,即直接到nutch搜索界面,然后在此界面上再两个连接,一个是个人空间管理,一个是全局文档分析,那么如何将nutch的搜索结合起来呢?下面是两种方案1.单独做一个web注册登陆应用,然后登陆成功后,直接在转到nutch的搜索,即从tomcat中的webapp里的一个用户项目转到另一个项目,将请求从这个登陆项目直接在服务器内部转移到nutch.war解压出的对应搜
2011-08-24 18:45:40 814
原创 sqlite入门学习笔记2
前面简单学习了一下,如何在sqlite的控制台界面用命令建表及增删改查的操作,下面简单看一下,如何利用Java来操作sqlite数据库1.开发环境用eclipse,新建一个Java 工程MySqliteTest,新建一个类TestSQLite .java2.下载SQLit
2011-08-21 16:16:10 868
原创 sqlite入门学习笔记1
因为要做glusterfs多用户的实现,所以要有用户注册和登陆,而用户注册就要涉及到数据库,所以就用到了sqlite,为什么选它?1.小巧2.跨平台3. 免配置,和access一样,只要把数据库文件通过ftp上传到服务器上就可以使用,不需要服务器的额外支持4. 备
2011-08-20 12:10:13 1042
原创 Nutch更新索引
搜索引擎架构时都应当考虑到索引更新的问题,即当互联网上的网页发生改变(增加或者删除、修改)时搜索引擎端索引也应当进行相应的变化。Nutch也提供了一些方案用于更新索引,不过看起来比较烦琐。对于小量索引而言,可以采用最简单最聪明也是明笨的方法,即删除原有索引重新爬取网络。这种方式对
2011-08-18 16:13:47 1233
原创 GlusterFS中的RAID
一直不了解RAID是什么概念,这两天简单看了一下,RAID是“Redundant Array of Independent Disks”的缩写,中文意思是独立冗余磁盘阵列,磁盘阵列中针对不同的应用使用的不同技术,称为RAID level,而每一level都代表着不同技术,目前业界公认的标准是RAID 0~RAID 5。 百度百科里有详细解释这里结合glusterfs的应用,说一下RAID0和R
2011-08-16 22:37:16 3209 1
原创 Nutch定时抓取网页
想让Nutch定时抓取某一网站内容,cron正是解决这个问题的工具。 cron是linux下定时执行工具,可在完全无人工干预的情况下作业。就像windows中的“任务计划”功能一样在Ubuntu server 10.04下,cron是被默认安装并启动的。通过/etc/cr
2011-08-13 18:18:04 2274
原创 mahout之canopy算法简介
K 均值聚类算法的最大的优点是:原理简单,实现起来也相对简单,同时执行效率和对于大数据量的可伸缩性还是较强的。然而缺点也是很明确的,首先它需要用户在执行聚类之前就有明确的聚类个数K的设置,这一点是用户在处理大部分问题时都不太可能事先知道的,一般需要通过多次试验找出一个最优的 K
2011-08-12 15:34:53 5535 2
原创 常见中文分词比较
对于英文文档,其分词的过程很简单。中文文本的分类难度较大,主要是因为汉语分词问题的困难,即为此需要建立完整的汉语概念体系、汉语语法、语义和语用分析是十分复杂的。 lucene包自带的三种中文分词:以“我是中国人”这句话作分词举例1.StandardAnalyzer:
2011-08-10 15:32:15 4657 2
原创 mahout应用kmeans进行文本聚类2之——实例分析
在Mahout_in_Action这本书中,给了一个文本的聚类实例,并提供了原始输入数据,下面结合例子说明 作为聚类算法的主要应用场景 - 文本分类,对文本信息的建模也是一个常见的问题。在信息检索研究领域已经有很好的建模方式,就是信息检索领域中最常用的向量空间模型词频 -
2011-08-09 22:49:06 9977 6
原创 mahout应用kmeans进行文本聚类1之——输入输出分析
输入分析:mahout下处理的文件必须是SequenceFile格式的,所以需要把txtfile转换成sequenceFile,而聚类必须是向量格式的,mahout提供下面两个命令来将文本转成向量形式1.mahout seqdirectory:将文本文件转成Sequenc
2011-08-09 22:45:16 10171 3
原创 mahout中的kmeans结果分析
运行官网上的mahout kmeas示例,结果文件夹有clusteredPoints,clusters-N,data,用命令mahout seqdumper仔细看了一下结果文件clusteredPoints:存放的是最后聚类的结果,将cluster-id和documents-
2011-08-06 17:41:05 8113 3
原创 编译mahout源码并导到eclipse中
为什么要编译源码呢?其实直接用二进制包更省事,只是为了方便读取源码和修改源码1.直接在mahout安装目录下使用mvn install,这样mahout目录下的所有文件就都编译并打包安装,可以在各模块下的target目录中看到class目录和生成的jar包2.如果只想编译部分,例如编译core:更换到core目录下,mvn compile,此时没有生成jar包,只生成了.class文件,之
2011-08-05 22:54:48 6400 4
原创 Nutch爬取与Solr搜索结合
不知道为什么在Nutch-1.3中没了Nutch自带的搜索war文件,而且在Nutch-1.3中,抓取文件后,生成的目录只有crawldb,linkdb,segments,而没有了indexs和index目录查了一下官网Wiki,上面是把Nutch的索引映射到solr,用solr来提供搜索功能,详见官网Wiki说明:http://wiki.apache.org/nutch/RunningNut
2011-08-03 17:10:48 6679 2
原创 mahout seq2sparse源文件解析
mahout seq2sparse对应的源文件是SparseVectorsFromSequenceFiles.java首先用DocumentProcessor.tokenizeDocuments方法,将(Text,Text)变成(Text,StringTuple)Stri
2011-08-03 16:11:15 2352
原创 mahout读取nutch抓取数据后的文件
1.mahout seqdumper在读取data文件时,报少ParseText包,把这个包导进来后,就可以正确读取了2.mahout seq2sparse转向量是关键,可这一步报类型转换错误,mahout中要的key-value是(Text,Text)类型
2011-08-01 20:23:42 1930
十分钟自学MySQL
2009-11-16
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人