自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(46)
  • 收藏
  • 关注

原创 Hadoop Map/Reduce教程

这篇教程从用户的角度出发,全面地介绍了Hadoop Map/Reduce框架的各个方面。先决条件请先确认Hadoop被正确安装、配置和正常运行中。更多信息见:Hadoop快速入门对初次使用者。 Hadoop集群搭建对大规模分布式集群。 概述Hadoop Map/Reduce是一个使用简易的软件框架,基于它写出来的应用程序能够运行在由上千个商用机器组成的大型集群上,并以一...

2011-09-30 16:26:31 141

原创 linux下更换java版本

linux安装的时候如果选择了java开发的话会默认安装当前linux内置的gil java版本     新点的linux安装的java版本大多为1.4 有更老的系统自带的java版本为1.3根本不能满足我们程序开发的需要      进入终端查看当前java版本      [root@localhost sbin]# java -versionjava version "1...

2011-09-13 18:43:39 338

原创 ictclas4j for lucene analyzer,

版权信息: 可以任意转载, 转载时请务必以超链接形式标明文章原文出处, 即下面的声明. 原文出处:http://blog.chenlb.com/2009/01/ictclas4j-for-lucene-analyzer.html在 lucene 的中文分词域里,有好几个分词选择,有:je、paoding、IK。最近想把 ictclas 拿来做 lucene 的中文分词。网上...

2011-08-29 17:26:29 115

原创 一些常用的开源分词工具

SCWS:  Author:Hightman算法:基于词频词典的机械中文分词引擎,采用的是采集的词频词典,并辅以一定的专有名称,人名,地名,数字年代等规则识别来达到基本分词准确率:经小范围测试大概准确率在 90% ~ 95% 之间,已能基本满足一些小型搜索引擎、关键字提取等场合运用。性能:45Kb左右的文本切词时间是...

2011-08-26 12:23:28 145

原创 Linux常用命令

1 文件管理 # ls ls -a 列出当前目录下的所有文件,包括以.头的隐含文件    文件管理   #   ls   ls -l或ll   列出当前目录下文件的详细信息            文件管理   #   pwd   pwd   查看当前所在目录的绝对路经            文件管理   #   cd   cd ..   回当前目录的上一级目录           ...

2011-08-24 19:10:20 82

原创 linux下SSH两机器无需登录可访问

如何做到两台Linux机器之间不使用密码即可通过SSH远程登录。   有两台linux机器A(192.168.0.195),B(192.168.1.210),想通过A机器ssh的方式登录到B机器,且不必输入密码。原理很简单,rsa公私钥机制,创建一对密钥(包含公钥和私钥),将公钥放入远程需要登录到的那个机器B上,自己保留私钥。通过A登录远程机器B时,对方验证方法为:使用公钥加密数据...

2011-06-14 17:16:29 141

原创 在linux/unix下如何去掉windows下的换行符

windows编写的文本文件,在linux下发现每行的后面都多了字符“^M”.导致有的脚本无法直接执行,如perl脚本,可能就必须要用 perl **.pl的形式来执行脚本了,即使你在第一行指定了#! /usr/bin/perl也不好使。原因就是这个换行格式造成。简单的解决办法是:输入命令:sed 's/^M//' filename.pl>newfilename....

2011-06-10 11:20:30 1219

原创 Red Hat Enterprise Linux AS release 4 安装YUM

[size=medium]系统版本:Linux localhost.localdomain 2.6.9-55.ELsmp #1 SMP Fri Apr 20 17:03:35EDT 2007 i686 i686 i386 GNU/Linux[root@localhost ~]# [color=red]cat /etc/redhat-release[/color]Red Hat En...

2011-05-31 17:42:00 194

原创 Linux下MySql的安装和使用

一、引言    想使用Linux已经很长时间了,由于没有硬性任务一直也没有系统学习,近日由于工作需要必须使用Linux下的MySQL。本以为有Windows下使用SQL Server的经验,觉得在Linux下安装MySql应该是易如反掌的事,可在真正安装和使用MySQL时走了很多弯路,遇见很多问题,毕竟Linux和Windows本身就有很大区别。为了让和我一样的初学者在学习的过程中少走弯路...

2011-05-27 18:19:51 134

原创 LINUX如何启动/停止/重启MySQL/卸载/安装

[size=medium]LINUX如何启动/停止/重启MySQL发启动、停止、重启 MySQL 是每个拥有独立主机的站长必须要撑握的操作,下面作简单介绍:一、启动方式1、使用 service 启动:service mysqld start2、使用 mysqld 脚本启动:/etc/init.d/mysqld start3、使用 safe_mysqld 启动:s...

2011-05-27 17:45:24 336

原创 MySql导入和备份

在DOS的 MYSQL安装目录/BIN 目录下用下面命令:[color=red]mysql -c --default-character-set=utf8 -u username -p databasename -h IPAddress < XXX.sql[/color]其中username 为mysql用户名,一般为root;databasename为你要导入数据的目标数...

2011-05-27 17:38:56 90

原创 linux下查看mysql、apache是否安装,并卸载

1,mysql 的守护进程是mysqld如果已经安装则:[root@localhost ~]# [color=red]service mysqld start[/color]启动 MySQL: [确定]如果没有安装则:[root@localhost ~]# [color=...

2011-05-27 15:58:30 2481

原创 Linux下Memcached安装

Linux下Memcache服务器端的安装服务器端主要是安装memcache服务器端,目前的最新版本是 memcached-1.3.0 。下载:http://www.danga.com/memcached/dist/memcached-1.2.2.tar.gz另外,Memcache用到了libevent这个库用于Socket的处理,所以还需要安装libevent,libevent的最新...

2011-05-25 17:44:26 74

原创 linux下Tomcat应用部署

一.所需软件软件:jdk6.bin、apache-tomcat-6.0.18.tar程序包:customer.war,customerService.war,FrontProject.war,expressBackUser.war,expressAccount,expressPlatform.war,OrderDispose.war,OrderDisposeTest.war...

2011-05-25 17:38:51 144

原创 Linux下VI命令

linux下Vi编辑器命令大全/根目录下的文件夹输入”/”,回车里面有很多文件夹,如:etc,home,lib,mnt等等etc:存放用户名和密码home:每个用户有个文件夹,存放在这里lib:操作系统文件等mnt:挂扣用的opt:java工具bea:web编程的一些东西sbin,bin,usr:这三个文件夹都是存放unix的命令的tmp:临时文件夹...

2011-05-25 10:12:57 155

原创 java中的值传递和引用传递

Java中没有指针,所以也没有引用传递了,仅仅有值传递不过可以通过对象的方式来实现引用传递 类似java没有多继承 但可以用多次implements 接口实现多继承的功能值传递:方法调用时,实际参数把它的值传递给对应的形式参数,方法执行中形式参数值的改变不影响实际参 数的值。引用传递:也称为传地址。方法调用时,实际参数的引用(地址,而不是参数的值)被传递给方法中相对应的形式参数,在方法执行...

2011-05-24 10:20:37 113

原创 java进制之间转换

2进制CPU使用,8进制很少见,10进制适合人类使用,16进制适合编译器和底层程序员使用,希望对你有所帮助!public class Sun1 {public static void main(String[] args) { System.out.println(Integer.toHexString(20)); //十进制转成十六进制 System.out.printl...

2011-05-18 11:03:33 349

原创 关于指令jar打包文件

生成jar包的两种方式:1、第一种 选择类生成Jar包Java代码 收藏代码 1. jar cvf classes.jar Foo.class Bar.class jar cvf classes.jar Foo.class Bar.class-jar 执行命令 -cvf 创建新的归档文件,生成详细输出,指定归档文件名-classes.jar 给生...

2011-05-17 14:35:13 110

原创 JVM配置

1假设你是windows平台,你安装了J2SDK,那么现在你从cmd控制台窗口进入J2SDK安装目录下的bin目录,然后运行java命令,出现如下结果,这些就是包括java.exe工具的和JVM的所有命令都在里面。这里面告诉你可以用 -Dxxxx=xxx 设置参数即:-D= set a system property----------------...

2011-04-14 13:49:09 87

初级入门-关于DOS命令下执行Java

[b]先进入文件目录下编译文件[/b] 例如:进入到目录cd D:\Work\Learn\JavaSE\src\net\multiTalk 编译该目录下的文件:Javac –Encoding UTF-8 A.java B.java C.java D.java[b]运行该文件[/b] 如果该class文件位于D:\Work\Learn\JavaSE\src\net\multiT...

2011-03-28 16:15:58 76

问读nutch 1.2 解析html的插件 HtmlParser插件

分为以下几个部分:1 解析成Dom 通过sax,DocumentFragment root;//把网页内容content转化bytebyte[] contentInOctets = content.getContent();//SAX解析抽取外部信息 InputSource input = new InputSource(new ByteArrayInputSt...

2011-03-05 00:43:00 128

模板抽取思路的分析

今天看到一篇文章,关于页面转化成xml的方式,突然想到nutch的模板匹配问题,因为第一个页面,写匹配方式,及写一些与此同时过滤真的很没有效率,所以我打算,扩展nutch的htmlParser这个插件,把nutch只当作一个爬虫,而索引这块先不考虑。考虑采用自己建立solr服务器来建立索引。方案:动态代码--&gt;html--&gt;转化成xml或xhtml --&gt; XSLT提取 ...

2011-03-03 00:20:00 100

nutch全网爬行的底层命令

最近在研究nutch,找到了关于使用底层命令进行全网爬行的资料。首先获得网址集,使用http://rdf.dmoz.org/rdf/ 目录下的content.example.txt 文件做测试,建立文件夹dmoz命令:bin/nutch org.apache.nutch.tools.DmozParser content.example.txt &gt;dmoz/urls注射网址到c...

2011-02-25 13:13:00 74

nutch的一些读取命令

最近在研究nutch,整理了一下关于读取资源数据的命令。1.查看crawldb数据库:bin/nutch readdb url/crawldb/ -stats 这个命令可以查看url地址总数和它的状态及评分。查看每个url地址的详细内容,导出数据:bin/nutch readdb url/crawldb/ -dump crawldb(导出的地址)查看具体的url,以163为例:bin/...

2011-02-25 13:12:00 67

关于nutch1.0二次开发需要更改的东西

二次开发的时候,需要重点对Nutch的界面及界面显示数据进行适当的调整。目前据我了解到的要修改的地方有以下几点:1。搜索页面页头页尾log修改、选项卡乱码显示问题。2。显示查询结果行 添加查询用时3。查询结果摘要长度修改,默认只有20个字符。4。网页快照乱码修改,以及后面的(评分详解) (anchors) (more from news.qq.com)菜单项...

2011-02-25 00:30:00 83

nutch 1.2 分页处理

&lt;%@ page session="false" contentType="text/html; charset=UTF-8" pageEncoding="UTF-8" import="java.io.*" import="java.util.*" import="java.net.*" import="javax.servlet.http.*&qu

2011-02-25 00:29:00 59

nutch 1.2 分页处理

&lt;%@ page session="false" contentType="text/html; charset=UTF-8" pageEncoding="UTF-8" import="java.io.*" import="java.util.*" import="java.net.*" import="javax.servlet.http.*"

2011-02-25 00:27:00 52

nutch 1.2 war的二次开发 第一步,重新编写首页

nutch的首页,比较难看,实现了一些基本页面,像baidu一样。你如果像对它进行二次开发的话,你就得读一下源码了,然后进行build.xml 重新打包在tomcat里发布了,当然。这里我已经对它进行了读写哈。 nutch 里的页面,是通过xslt 里编写的,在源码src/web/style/nutch-page.xsl 编写,这里有一个xsl格式的源码。这里你应该要读懂它的基本结构,不...

2011-02-23 23:54:00 98

nutch-1.0 的分布式查询部署

nutch-1.0 的分布式查询部署 nutch-1.0集成了hadoop的mapreduce实现分布式爬虫方式,抓取的网页及索引等都存放在HDFS上,但hdfs用于查询是不切实际的,所以建议copy到本地之后做搜索查询。但如果索引文件很多,索引数据量大,在一台机器上部署查询势必很慢,这时可以考虑分布式查询方式,将索引分散在多个机器中;下面是分布式查询方式...

2011-02-23 00:15:00 53

nutch1.2 修改jsp页面后,想打包部署到tomcat中,有几个地方需要修改的。

nutch1.2 修改jsp页面后,想打包部署到tomcat中,有几个地方需要修改的。 其中一个地方,当然是搜索的索引路径了. nutch-site.xml &lt;property&gt; &lt;name&gt;searcher.dir&lt;/name&gt; &lt;value&gt;F:\nutch\test&lt;/value&gt; &l...

2011-02-23 00:14:00 61

nutch 1.2 从eclipse 打war包到tomcat 需要修改的地方

nutch1.2 修改jsp页面后,想打包部署到tomcat中,有几个地方需要修改的。 其中一个地方,当然是搜索的索引路径了. nutch-site.xml &lt;property&gt; &lt;name&gt;searcher.dir&lt;/name&gt; &lt;value&gt;F:\nutch\test&lt;/value&gt; &lt;/pro...

2011-02-22 23:53:00 83

Nutch1.2增加插件例子

今尝试下给nutch1.2增加一个插件,于是到官网找了个例子,链接如下:http://wiki.apache.org/nutch/WritingPluginExample-0.9这个例子实现的的是推荐网站,就是写关键字在content里,当别人搜索这个关键字时,你推荐的网站在搜索结果中排前,要实现推荐必须在你的网页上加上view plaincopy to clipboardprin...

2011-02-21 23:45:00 58

nutch 1.2 增量爬取url 完成 recrawl.sh 编写

# 使用说明:在bin目录下建立 runbot.sh ,如果在window下执行的话,则使用 cygwin 来模拟使用# bin/runbot.sh# runbot script to run the Nutch bot for crawling and re-crawling.# Usage: bin/runbot [safe]# If executed in 'safe...

2011-02-21 23:41:00 88

开发基于 Nutch 的集群式搜索引擎

本文首先介绍 Nutch 的背景知识,包括 Nutch 架构,爬虫和搜索器。然后以开发一个基于 Nutch 的实际应用为例向读者展示如何使用 Nutch 开发自己的搜索引擎。在该示例中,首先带领读者开发一个作为 Nutch 爬虫抓取的目标网站,目标网站将被部署在域名为 myNutch.com 的服务器上。然后示例说明 Nutch 爬虫如何抓取目标网站内容,产生片断和索引,并将结果存放在...

2011-02-21 23:39:00 151

Nutch开源搜索引擎与Paoding中文分词用plugin方式集成[转]

本文是我在集成中文分词paoding时积累的经验,单独成一篇文章来重点介绍,重点需要了解的有下面几个文件,a)插件目录及插件文件 build.xml,plugin.xml b)nutch-0.9\src\plugin\build.xml c)WEB-INF/classes/nutch-site.xml 然后通过按照下面的方式来配置,执行ant package就可以搞定了,这里用ant的...

2011-02-21 23:38:00 57

spring2.0常见异常

1:Exception in thread "main" java.lang.NoClassDefFoundError: org/apache/commons/logging/LogFactory at org.springframework.util.ClassUtils.&lt;clinit&gt;(ClassUtils.java:67) at org.sprin...

2010-09-07 19:02:00 54

将access导入SQL server

熟悉SQLSERVER2000的数据库管理员都知道,其DTS可以进行数据的导入导出,其实,我们也可以使用Transact-SQL语句进行导入导出操作。在Transact-SQL语句中,我们主要使用OpenDataSource函数、OPENROWSET函数,关于函数的详细说明,请参考SQL联机帮助。利用下述方法,可以十分容易地实现SQLSERVER、ACCESS、EXCEL数...

2010-08-31 10:20:00 73

系统服务

系统服务篇一0我顶 1. 服务名称:Alerter显示名称:Alerter服务描述:通知选定的用户和计算机管理警报。如果服务停止,使用管理警报的程序将不会收到它们。如果此服务被禁用,任何直接依赖它的服务都将不能启动。可执行文件路径:C:\WINDOWS\system32\svchost.exe -k LocalService其他补充:操作建议:停止并禁用2. 服务名称:ALG显示名称:Ap...

2010-08-29 21:34:00 100

Java 正则表达式替换

public String getHref(String src){ return "&lt;img src='image/reply/"+ src.substring(1, src.length()-1) +"'/&gt;"; } publi...

2010-08-25 22:08:00 62

oracle中关于表的所有操作(创建删除表,修改表结构,创建约束,操作表数据,增删改查等)...

1.创建表: a. 创建xs表中计算机专业学生的备份 Create table xs_jsj as select * from xs where zym=’计算机’; b.完整的例子:      Create table test (xm char(20) not null,zy varchar(30) default (‘计算机’)); -- Create table c...

2010-08-15 18:17:00 180

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除