licaoiii-CSDN博客

原创中文分词内容集锦

1. http://lcl.cnblogs.com/archive/2006/01/27/323742.html 2. http://search.cpan.org/dist/Lingua-ZH-WordSegment/3. http://blog.csdn.net/caohao2008/article/details/56976264. 中文分词中文分词是使

2012-05-21 15:58:16 831

原创 Hibernate简单示例

1.导入所需的各种jar包2. hibernate.cfg.xml配置文件"-//Hibernate/Hibernate Configuration DTD 3.0//EN" "http://hibernate.sourceforge.net/hibernate-configuration-3.0.dtd"> com.mysql.jdbc.Driver

2012-05-19 13:03:21 330

转载 mysql密码忘记如何破解

http://wenku.baidu.com/view/eec951d1b14e852458fb5725.html

2012-05-19 12:58:42 332

转载 DWR入门与使用

Java 開發人員與網頁設計人員的橋樑 DWR…呃！我懶得寫簡介了…直接來看看可以做什麼吧！…請先到 http://getahead.ltd.uk/dwr/ 下載 dwr.jar，放到WEB-INF/lib下…負責處理客戶端請求，並呼叫Java物件的是DWRServlet，DWR其實也有些Model 2的味道，只是View的這一層比較弱，因為放到客戶端的JavaScript

2012-05-18 15:19:30 504

现在开发搜索系统，使用的是开源界比较推崇的Lucene,版本是Maven库上面的3.5，这个版本里面有很多方法都不建议使用了。所以代码创建的方式有那么点变化，我使用的分词器是IkAnalyzer。Lucene全文检索的功能是很强大的，我们在做电子商务系统的时候肯定是会遇到排序的问题，比如销量，比如价格等等，为了方便客户我们便需要Lucene的排序功能，其实Lucene中的排序很简单也很方便，我们在

2012-04-27 17:33:44 1130

转载 Lucene3.5自学系列2-查询的建立--IndexSearch

暂时现写个实例，等有时间在慢慢详写 1 package cn.swust.lucene; 2 3 import java.io.File; 4 import java.io.IOException; 5 6 import org.apache.lucene.analysis.Analyzer; 7 import org.apache.lucene.an

2012-04-27 17:06:14 548

转载 Lucene查询简述

本示例是对Lucene查询，对结果进行了一些处理(Lucene 3.5)： 1、支持前缀搜索，如*国，可以搜索出中国、美国等国字结尾的词的内容：支持后缀匹配，如国* 则可以搜索中国、美国等以国字结尾的词，*:*可以查询所有索引。 parser.setAllowLeadingWildcard(true); 2、搜索时在有通配符时可以不区分大小写：

2012-04-27 17:05:21 669

转载自定义的Lucene排序

从1.4版本开始，Lucene开始支持自定义的结果排序，而在之前，结果只能按照评分结果倒序排列(desc)。通常，在查询时我们使用IndexSearcher的search(Query query)方法，这个方法默认返回的结果是按照评分结果倒序排列.要实现自定义排序,则应该使用search方法的overload版本search(Query query,Sort sort).

2012-04-26 11:24:01 1084

转载中文分词与停用词的作用

首先什么是中文分词stop word？英文是以词为单位的，词和词之间是靠空格隔开，而中文是以字为单位，句子中所有的字连起来才能描述一个意思。例如，英文句子I am a student，用中文则为：“我是一个学生”。计算机可以很简单通过空格知道student是一个单词，但是不能很容易明白“学”、“生”两个字合起来才表示一个词。把中文的汉字序列切分成有意义的词，就是中文分词，有些人也称为切词。我

2012-04-17 15:25:40 2216

转载基于Lucene3.5.0如何从TokenStream获得Token

通过学习Lucene3.5.0的doc文档，对不同release版本 lucene版本的API改动做分析。最后找到了有价值的改动信息。LUCENE-2302: Deprecated TermAttribute and replaced by a new CharTermAttribute. The change is backwards compatible, so mixed new/old

2012-03-31 10:13:24 615

转载中文分词

用了好几种分词方式, 1.先是扫描出全部词组并记下前后位置 2.然后将有争议的部分进行词性规则匹配如:江西省委可能为 "江西省ns(地名) 委g(语素) "和 "江西ns(地名) 省委n(名词) " 按规则ns+n就可以正确分出 "江西省委 "3.无规则匹配的按统计频率分值高低拆分 4.用普通的正向最大匹配处理可能出现的碎片 5.用语料库中收集

2012-03-19 15:11:09 360

转载全文检索与Lucene学习

全文检索与Lucene学习本文是我最近针对Lucene3.3.0进行的总结，并提供了大量的实现Demo，常用的基本都有，下载地址：http://download.csdn.net/detail/a_2cai/35941541 概述概念：Lucene不是一个完整的全文索引应用，而是是一个用Java写的全文索引引擎工具包，它可以方便的嵌入到各种应用中实现针对应用的全文索引/检索功能。

2012-03-15 16:12:27 1074

原创 SCWS分词学习之一

SCWS – 简易中文分词系统 SCWS 在概念上并无创新成分，采用的是自行采集的词频词典，并辅以一定程度上的专有名称、人名、地名、数字年代等规则集，经小范围测试大概准确率在 90% ~ 95% 之间，已能基本满足一些中小型搜索引擎、关键字提取等场合运用。 SCWS 采用纯 C 代码开发，以 Unix-Like OS 为主要平台环境，提供共享函数库，方便植入各种现有软件系统。此外

2012-03-07 15:01:01 699

转载 java中的标准I/O流与文件2（J2SE入门17）

随机存取文件 RondomAccessFile类允许随机访问文件，这个类也是支持直接输出输入各种数据类型。GetFilepoint()可以知道文件中的指针位置，使用seek()定位。Mode(“r”:随机读；”w”：随机写；”rw”：随机读写)1) 实现了二个接口：DataInput和DataOutput； 2) 只要文件能打开就能读写； 3) 通过文件指针能读写文件指定位

2012-03-01 16:06:57 532

转载 java中的标准I/O流与文件1（J2SE入门16）

标准I/O流与文件 _______ 输入 __________| |――――> | || JVM | | 数据资源 ||_______| ――――|_________| 输出对文件的操作File类（java.io

2012-03-01 16:06:04 561

原创使用中科院ICTCLAS构建自己分词器中用到的public String readerToString(Reader reader)

public String readerToString(Reader reader)throws IOException{ BufferedReader br = new BufferedReader(reader); // String str = null;//存储reader转换后的string,这个初始化错误，导致最后输出的String里含有null S

2012-03-01 16:01:32 644

转载 Lucene3.0.1 学习笔记

不管怎么说,搜索都是非常重要的技术,不仅仅是操作系统集成了,很多应用软件都有搜索的功能,论坛有专门用于在论坛搜索的,互联网就有诸如像百度、谷歌之类的搜索引擎,总而言之,只要数据量稍微大一点的应用程序,都会提供搜索这个功能.我们为什么需要Lucene?任何的的查询功能都类似,都是对文本内容的搜索,说白了,就是找出含有指定字符串的的资源,只是查找的范围不同而已.目前的主流搜索都是全文搜索,

2012-02-29 17:59:08 835

转载中科院分词工具imdict-chinese-analyzer学习-java分词

下载链接http://ictclas.org/Down_OpenSrc.asp简单介绍： imdict-chinese-analyzer是 imdict智能词典的智能中文分词模块，作者高小平，算法基于隐马尔科夫模型(Hidden Markov Model, HMM)，是中国科学院计算技术研究所的ictclas中文分词程序的重新实现（基于Java），可以直接为lucene搜索引擎提供

2012-02-29 17:54:36 3791

转载 Lucene3.0分词原理与分词系统

分词原理建立索引和查询的过程中，都是以基本的语素项为单位的。基本的语素项就是通过分词得到。这个过程决定了索引单元金额最终的匹配过程。分词在文本索引的建立过程和用户提交检索过程中都存在。利用相同的分词器，把短语或者句子切分成相同的结果，才能保证检索过程顺利进行。1、英文分词的原理基本的处理流程是：输入文本、词汇分割、词汇过滤（去除停留词）、词干提取（形态还原）、大写

2012-02-29 17:51:29 944

转载（ICTCLAS）TjuChineseAnalyzer.源代码如下：

分词名称：TjuChineseAnalyzer.源代码如下：package org.apache.lucene.analysis.tjuchinese; import java.io.IOException; import java.io.Reader; import java.io.StringReader; import java.util.Set; import org.apac

2012-02-28 17:18:10 860

转载字符串匹配相关算法总结

字符串匹配定义：文本是一个长度为n的数组T[1…n], 模式是以个长度mP和T的元素都是有限字母表∑中的字符‍ １.字符串朴素匹配也就是蛮力匹配，每次移动一个步长，然后匹配，时间复杂度O((n-m+1)m)２.Rabin-Karp算法Rabin-Karp算法的思想是将模式串P表达为一个值，这样每次进行串匹配的时候，只需要比较这个值就可以了，而不需要对m个字符串进行m次比

2012-02-28 17:17:37 501

转载刚接触Lucene3.0.2写的一个小程序

用的是ecplise环境，把lucene 的jar包导入新建的工程中...一共两个文件：-----------------------------------IndexDocument.javaSampleSearch.java-----------------------------------IndexDocument.java 源码如下：***********

2012-02-28 16:57:29 2974

转载 lucene3.0简单解析

一、概述 Lucene3.0（以下简称3.0）已于2009-11-25发布，3.0版本是重大的版本，改动很大。在API上做了很多的调整，已经删除了很多之前废弃的方法以及类，并支持了很多Java5 的新特性：包括泛型、可变参数、枚举和autoboxing等。因此，此版本和2.x版本不能兼容，如要使用3.0版本，最好是在新项目中去使用，而不是去升级2.x或之前的版本！

2012-02-28 16:55:54 726

转载一个用Lucene3.0 的搜索项目设计总体图

目前一个项目里面用了Lucene3.0做一个搜索引擎。是想作为一个平台性质的。为各个应用提供搜索服务。底层数据库建索引是支持对多个数据库建索引的，因为不同应用的数据库可能不一样。所以在搜索结果和返回搜索数据之间增加了一个业务处理层，专门针对各个应用的一些业务上的处理。在我们的设计中，把和业务相关的很多Lucene的设置都提到了业务处理层，比如排序、Query组装、还有业务字段和索引字段

2012-02-23 12:59:38 436

转载 Lucene下引入ICTCLAS进行中文分词的实现方法

Analysis包分析算法和数据结构分析:由于Analysis包比较简单,不详述了!算法:基于机械分词 1-gram,2-gram,HMM(如果使用ICTCLAS接口的话)数据结构:部分源码用到了Set ,HashTable,HashMap认真理解TokenLucene中的Analysis包专门用于完成对于索引文件的分词.Lucene中的Token是一个

2012-02-15 11:25:46 716

转载再论Java全角半角转换

最近在做中文处理时，遇到了全角半角转换的问题，于是到网上搜了一下，问题基本上得到解决，但是发现没有对全角空格，和半角空格做转换处理，而且半角转全角的代码有bug，下面是修改后的代码：// FullCharConverter.javaimport java.io.UnsupportedEncodingException;public class FullCharConverter

2012-02-14 12:38:10 281

转载常用正则表达式2

这只是做一个简单的总结,以便自己以后使用起来方便一点匹配中文字符的正则表达式： [\u4e00-\u9fa5] 评注：匹配中文还真是个头疼的事，有了这个表达式就好办了匹配双字节字符(包括汉字在内)：[^\x00-\xff] 评注：可以用来计算字符串的长度（一个双字节字符长度计2，ASCII字符计1）匹配空白行的正则表达式：\n\s*\

2012-01-09 16:49:29 236

转载常用的正则表达式

[size=12px]1。^\d+$　　//匹配非负整数（正整数 + 0） 2。^[0-9]*[1-9][0-9]*$　　//匹配正整数3。^((-\d+)|(0+))$　　//匹配非正整数（负整数 + 0） 4。^-[0-9]*[1-9][0-9]*$　　//匹配负整数5。^-?\d+$　　　　//匹配整数6。^\d+(\.\d+)?$　　//匹配非负浮点数（正浮点数 +

2012-01-09 16:48:30 295

commons-logging-1.1.jar

web开发经常会用到的jar包,commons-logging-1.1.jar

2012-05-17

lucene学习总结

lucene学习总结：lucene全文检索的原理，索引文件的格式，lucene的整体架构

2012-04-25

LUCENE IN ACTION

lucene in action第二版，基于lucene开发自己的搜索引擎，这是入门书籍，值得一读