2012年10月_zhangt85

原创 paoding自定义词典研究1

这几天研究paoding分词器的使用，遇到一个很棘手的问题在使用庖丁自定义词典的时候，按照网上查的资料， 1.首先自定义一个XXX.dic的文件，以utf-8保存； 2.将自定义词添加到dic\locale下的XXX.dic中； 3.删除.compile文件夹用如下代码测试分词效果： String keyword = “中国科技大学”;

2012-10-13 16:35:35 2604

原创 paoding（庖丁）分词器配置安装

1.首先从网上下载庖丁分词器的包：http://code.google.com/p/paoding/downloads/list 2.解压到本地磁盘，例如我的存放路径：C:\lucene\paoding 3.创建环境变量PAODING_DIC_HOME，值为：C:\lucene\paoding\dic，即庖丁包的解压路径，到dic文件经过上述3步，我们已经配置好了庖丁分词器，只需要在工程项

2012-10-13 16:22:00 3379

原创 lucene学习笔记2--检索

对已经创建好的索引库进行检索 /** * 利用关键词对索引进行查询 * * @param keyword 搜索条件 * @param indexPath 索引路径 * @throws IOException * @throws ParseException * @see [类、类#方法、类#成员] */ public void search(String keyword

2012-10-13 16:13:39 623

原创 lucene学习笔记1--索引创建

创建索引代码： public void createIndex(String indexPath, String dataDir) throws IOException { //获取数据源文件列表 File[] files = new File(dataDir).listFiles(); //创建索引目錄 Directory directory = FSDirector

2012-10-13 16:11:27 544

原创 xml，jsp文件的注释快捷键

ctrl+shilf+c 注释掉选择的内容，适用于jsp，html和xml文件

2012-10-29 10:29:02 724

原创 mysql优化经验1

最近需要从数据库读出百万条数据，用分页查询，但是时间太长，于是进行优化 1.发现如果查询结果是有条件的，那么尽量把条件不要写到sql语句中，可以对读取结果进行遍历，获取需要的对象数据 2.分页查询时，当偏移量越大时，后面的分页查询耗时越长，这时就需要我们采用索引的字段进行快速定位到偏移位置，然后读取数据，如下的sql SELECT * FROM A where id >=(select i

2012-10-26 12:10:38 388

原创 jsp中文乱码解决方法

如果是post方法： request.setCharacterEncoding("gb2312"); 如果是get方法： String userName = request.getParameter("username"); byte[] bytes = userName.getBytes("iso-8859-1"); String result = new String(

2012-10-16 10:42:03 390

转载 Eclipse 快捷键大全

|字号订阅转自：http://zengzhaoshuai.iteye.com/blog/111428 Ctrl+1 快速修复(最经典的快捷键,就不用多说了) Ctrl+D: 删除当前行 Ctrl+Alt+↓ 复制当前行到下一行(复制增加) Ctrl+Alt+↑ 复制当前行到上一行(复制增加) Alt+↓ 当前行和下面一行交互位置(

2012-10-13 17:12:40 582

原创 paoding自定义词典研究2

我这篇博客的作用是为了解决用户使用paoding分词器时，添加自定义词的时候，有时候不起作用的现象的我们在使用paoding分词的时候都需要删除.compile文件夹，所以好奇的我就打开了这个文件夹，发现了名字为most-words-mode的文件夹，从名字我们可以看出这是庖丁分词的模式，即most-words模式，查看此文件夹下的vocabulary.dic.compiled的内

2012-10-13 17:01:35 2942

zhangt85的专栏