自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(28)
  • 资源 (4)
  • 收藏
  • 关注

原创 中文分词内容集锦

1. http://lcl.cnblogs.com/archive/2006/01/27/323742.html 2. http://search.cpan.org/dist/Lingua-ZH-WordSegment/3. http://blog.csdn.net/caohao2008/article/details/56976264. 中文分词       中文分词是使

2012-05-21 15:58:16 825

原创 Hibernate简单示例

1.导入所需的各种jar包2. hibernate.cfg.xml配置文件"-//Hibernate/Hibernate Configuration DTD 3.0//EN" "http://hibernate.sourceforge.net/hibernate-configuration-3.0.dtd">     com.mysql.jdbc.Driver

2012-05-19 13:03:21 319

转载 mysql密码忘记如何破解

http://wenku.baidu.com/view/eec951d1b14e852458fb5725.html

2012-05-19 12:58:42 320

转载 DWR入门与使用

Java 開發人員與網頁設計人員的橋樑 DWR…呃!我懶得寫簡介了…直接來看看可以做什麼吧!…請先到 http://getahead.ltd.uk/dwr/ 下載 dwr.jar,放到WEB-INF/lib下…負責處理客戶端請求,並呼叫Java物件的是DWRServlet,DWR其實也有些Model 2的味道,只是View的這一層比較弱,因為放到客戶端的JavaScript

2012-05-18 15:19:30 492

转载 Lucene排序以及自定义排序

现在开发搜索系统,使用的是开源界比较推崇的Lucene,版本是Maven库上面的3.5,这个版本里面有很多方法都不建议使用了。所以代码创建的方式有那么点变化,我使用的分词器是IkAnalyzer。Lucene全文检索的功能是很强大的,我们在做电子商务系统的时候肯定是会遇到排序的问题,比如销量,比如价格等等,为了方便客户我们便需要Lucene的排序功能,其实Lucene中的排序很简单也很方便,我们在

2012-04-27 17:33:44 1104

转载 Lucene3.5自学系列2-查询的建立--IndexSearch

暂时现写个实例,等有时间在慢慢详写  1 package cn.swust.lucene; 2 3 import java.io.File; 4 import java.io.IOException; 5 6 import org.apache.lucene.analysis.Analyzer; 7 import org.apache.lucene.an

2012-04-27 17:06:14 527

转载 Lucene查询简述

本示例是对Lucene查询,对结果进行了一些处理(Lucene 3.5):  1、支持前缀搜索,如*国,可以搜索出中国、美国等国字结尾的词的内容:        支持后缀匹配,如国* 则可以搜索中国、美国等以国字结尾的词,*:*可以查询所有索引。  parser.setAllowLeadingWildcard(true);  2、搜索时在有通配符时可以不区分大小写:

2012-04-27 17:05:21 652

转载 自定义的Lucene排序

从1.4版本开始,Lucene开始支持自定义的结果排序,而在之前,结果只能按照评分结果倒序排列(desc)。     通常,在查询时我们使用IndexSearcher的search(Query query)方法,这个方法默认返回的结果是按照评分结果倒序排列.要实现自定义排序,则应该使用search方法的overload版本search(Query query,Sort sort).

2012-04-26 11:24:01 1073

转载 中文分词与停用词的作用

首先什么是中文分词stop word? 英文是以词为单位的,词和词之间是靠空格隔开,而中文是以字为单位,句子中所有的字连起来才能描述一个意思。例如,英文句子I am a student,用中文则为:“我是一个学生”。计算机可以很简单通过空格知道student是一个单词,但是不能很容易明白“学”、“生”两个字合起来才表示一个词。把中文的汉字序列切分成有意义的词,就是中文分词,有些人也称为切词。我

2012-04-17 15:25:40 2187

转载 基于Lucene3.5.0如何从TokenStream获得Token

通过学习Lucene3.5.0的doc文档,对不同release版本 lucene版本的API改动做分析。最后找到了有价值的改动信息。LUCENE-2302: Deprecated TermAttribute and replaced by a new CharTermAttribute. The change is backwards compatible, so mixed new/old

2012-03-31 10:13:24 606

转载 中文分词

用了好几种分词方式, 1.先是扫描出全部词组并记下前后位置 2.然后将有争议的部分进行词性规则匹配   如:江西省委   可能为 "江西省ns(地名)   委g(语素) "和 "江西ns(地名)   省委n(名词) "   按规则ns+n就可以正确分出 "江西   省委 "3.无规则匹配的按统计频率分值高低拆分 4.用普通的正向最大匹配处理可能出现的碎片 5.用语料库中收集

2012-03-19 15:11:09 346

转载 全文检索与Lucene学习

全文检索与Lucene学习本文是我最近针对Lucene3.3.0进行的总结,并提供了大量的实现Demo,常用的基本都有,下载地址:http://download.csdn.net/detail/a_2cai/35941541 概述概念:Lucene不是一个完整的全文索引应用,而是是一个用Java写的全文索引引擎工具包,它可以方便的嵌入到各种应用中实现针对应用的全文索引/检索功能。

2012-03-15 16:12:27 1040

原创 SCWS分词学习之一

SCWS – 简易中文分词系统        SCWS 在概念上并无创新成分,采用的是自行采集的词频词典,并辅以一定程度上的专有名称、人名、地名、数字年代等规则集,经小范围测试大概准确率在 90% ~ 95% 之间,已能基本满足一些中小型搜索引擎、关键字提取等场合运用。 SCWS 采用纯 C 代码开发,以 Unix-Like OS 为主要平台环境,提供共享函数库,方便植入各种现有软件系统。此外

2012-03-07 15:01:01 688

转载 java中的标准I/O流与文件2(J2SE入门17)

随机存取文件 RondomAccessFile类允许随机访问文件,这个类也是支持直接输出输入各种数据类型。GetFilepoint()可以知道文件中的指针位置,使用seek()定位。Mode(“r”:随机读;”w”:随机写;”rw”:随机读写)1) 实现了二个接口:DataInput和DataOutput; 2) 只要文件能打开就能读写; 3) 通过文件指针能读写文件指定位

2012-03-01 16:06:57 522

转载 java中的标准I/O流与文件1(J2SE入门16)

标准I/O流与文件 _______      输入     __________|             |――――> |                ||  JVM     |               | 数据资源    ||_______| ――――|_________|                   输出对文件的操作File类(java.io

2012-03-01 16:06:04 553

原创 使用中科院ICTCLAS构建自己分词器中用到的public String readerToString(Reader reader)

public String readerToString(Reader reader)throws IOException{    BufferedReader br = new BufferedReader(reader);      // String str = null;//存储reader转换后的string,这个初始化错误,导致最后输出的String里含有null    S

2012-03-01 16:01:32 636

转载 Lucene3.0.1 学习笔记

不管怎么说,搜索都是非常重要的技术,不仅仅是操作系统集成了,很多应用软件都有搜索的功能,论坛有专门用于在论坛搜索的,互联网就有诸如像百度、谷歌之类的搜索引擎,总而言之,只要数据量稍微大一点的应用程序,都会提供搜索这个功能.我们为什么需要Lucene?任何的的查询功能都类似,都是对文本内容的搜索,说白了,就是找出含有指定字符串的的资源,只是查找的范围不同而已.目前的主流搜索都是全文搜索,

2012-02-29 17:59:08 803

转载 中科院分词工具imdict-chinese-analyzer学习-java分词

下载链接http://ictclas.org/Down_OpenSrc.asp简单介绍: imdict-chinese-analyzer是 imdict智能词典的智能中文分词模块,作者高小平,算法基于隐马尔科夫模型(Hidden Markov Model, HMM),是中国科学院计算技术研究所的ictclas中文分词程序的重新实现(基于Java),可以直接为lucene搜索引擎提供

2012-02-29 17:54:36 3782

转载 Lucene3.0分词原理与分词系统

分词原理 建立索引和查询的过程中,都是以基本的语素项为单位的。基本的语素项就是通过分词得到。这个过程决定了索引单元金额最终的匹配过程。分词在文本索引的建立过程和用户提交检索过程中都存在。利用相同的分词器,把短语或者句子切分成相同的结果,才能保证检索过程顺利进行。1、 英文分词的原理 基本的处理流程是:输入文本、词汇分割、词汇过滤(去除停留词)、词干提取(形态还原)、大写

2012-02-29 17:51:29 910

转载 (ICTCLAS)TjuChineseAnalyzer.源代码如下:

分词名称:TjuChineseAnalyzer.源代码如下:package org.apache.lucene.analysis.tjuchinese; import java.io.IOException; import java.io.Reader; import java.io.StringReader; import java.util.Set; import org.apac

2012-02-28 17:18:10 849

转载 字符串匹配相关算法总结

字符串匹配定义:文本是一个长度为n的数组T[1…n], 模式是以个长度mP和T的元素都是有限字母表∑中的字符‍ 1.字符串朴素匹配也就是蛮力匹配,每次移动一个步长,然后匹配,时间复杂度O((n-m+1)m)2.Rabin-Karp算法Rabin-Karp算法的思想是将模式串P表达为一个值,这样每次进行串匹配的时候,只需要比较这个值就可以了,而不需要对m个字符串进行m次比

2012-02-28 17:17:37 492

转载 刚接触Lucene3.0.2写的一个小程序

用的是ecplise环境,把lucene 的jar包导入新建的工程中...一共两个文件:-----------------------------------IndexDocument.javaSampleSearch.java-----------------------------------IndexDocument.java 源码如下:***********

2012-02-28 16:57:29 2966

转载 lucene3.0简单解析

一、 概述      Lucene3.0(以下简称3.0)已于2009-11-25发布,3.0版本是重大的版本,改动很大。在API上做了很多的调整,已经删除了很多之前废弃的方法以及类,并支持了很多Java5 的新特性:包括泛型、可变参数、枚举和autoboxing等。      因此,此版本和2.x版本不能兼容,如要使用3.0版本,最好是在新项目中去使用,而不是去升级2.x或之前的版本!

2012-02-28 16:55:54 711

转载 一个用Lucene3.0 的搜索项目设计总体图

目前一个项目里面用了Lucene3.0做一个搜索引擎。是想作为一个平台性质的。为各个应用提供搜索服务。底层数据库建索引是支持对多个数据库建索引的,因为不同应用的数据库可能不一样。所以在搜索结果和返回搜索数据之间增加了一个业务处理层,专门针对各个应用的一些业务上的处理。在我们的设计中,把和业务相关的很多Lucene的设置都提到了业务处理层,比如排序、Query组装、还有业务字段和索引字段

2012-02-23 12:59:38 426

转载 Lucene下引入ICTCLAS进行中文分词的实现方法

Analysis包分析算法和数据结构分析:由于Analysis包比较简单,不详述了!算法:基于机械分词 1-gram,2-gram,HMM(如果使用ICTCLAS接口的话)数据结构:部分源码用到了Set ,HashTable,HashMap认真理解TokenLucene中的Analysis包专门用于完成对于索引文件的分词.Lucene中的Token是一个

2012-02-15 11:25:46 712

转载 再论Java全角半角转换

最近在做中文处理时,遇到了 全角半角 转换的问题,于是到网上搜了一下,问题基本上得到解决,但是发现没有对全角空格,和半角空格做转换处理,而且 半角转全角的代码有bug,下面是修改后的代码:// FullCharConverter.javaimport java.io.UnsupportedEncodingException;public class FullCharConverter

2012-02-14 12:38:10 274

转载 常用正则表达式2

这只是做一个简单的总结,以便自己以后使用起来方便一点匹配中文字符的正则表达式: [\u4e00-\u9fa5]   评注:匹配中文还真是个头疼的事,有了这个表达式就好办了      匹配双字节字符(包括汉字在内):[^\x00-\xff]   评注:可以用来计算字符串的长度(一个双字节字符长度计2,ASCII字符计1)      匹配空白行的正则表达式:\n\s*\

2012-01-09 16:49:29 225

转载 常用的正则表达式

[size=12px]1。^\d+$  //匹配非负整数(正整数 + 0) 2。^[0-9]*[1-9][0-9]*$  //匹配正整数3。^((-\d+)|(0+))$  //匹配非正整数(负整数 + 0) 4。^-[0-9]*[1-9][0-9]*$  //匹配负整数5。^-?\d+$    //匹配整数6。^\d+(\.\d+)?$  //匹配非负浮点数(正浮点数 +

2012-01-09 16:48:30 285

commons-logging-1.1.jar

web开发经常会用到的jar包,commons-logging-1.1.jar

2012-05-17

lucene学习总结

lucene学习总结:lucene全文检索的原理,索引文件的格式,lucene的整体架构

2012-04-25

LUCENE IN ACTION

lucene in action第二版,基于lucene开发自己的搜索引擎,这是入门书籍,值得一读

2012-04-25

网络课程设计——网络系统集成课件

(1)模拟局域网、广域网的通信 (2)局域网中划分VLAN(至少2个),通过设置ACL控制只有其中一个能够访问外网。 (3)局域网中配置冗余链路,启用RSTP(快速生成树协议) (4)配置路由选择协议(ospf 静态路由) (5)局域网中使用私有IP,广域网中使用公有IP。通过NAT完成VLAN能够访问外网。

2009-04-05

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除