- 博客(9)
- 资源 (3)
- 收藏
- 关注
原创 paoding自定义词典研究1
这几天研究paoding分词器的使用,遇到一个很棘手的问题 在使用庖丁自定义词典的时候,按照网上查的资料, 1.首先自定义一个XXX.dic的文件,以utf-8保存; 2.将自定义词添加到dic\locale下的XXX.dic中; 3.删除.compile文件夹 用如下代码测试分词效果: String keyword = “中国科技大学”;
2012-10-13 16:35:35 2604
原创 paoding(庖丁)分词器配置安装
1.首先从网上下载庖丁分词器的包:http://code.google.com/p/paoding/downloads/list 2.解压到本地磁盘,例如我的存放路径:C:\lucene\paoding 3.创建环境变量PAODING_DIC_HOME,值为:C:\lucene\paoding\dic,即庖丁包的解压路径,到dic文件 经过上述3步,我们已经配置好了庖丁分词器,只需要在工程项
2012-10-13 16:22:00 3379
原创 lucene学习笔记2--检索
对已经创建好的索引库进行检索 /** * 利用关键词对索引进行查询 * * @param keyword 搜索条件 * @param indexPath 索引路径 * @throws IOException * @throws ParseException * @see [类、类#方法、类#成员] */ public void search(String keyword
2012-10-13 16:13:39 623
原创 lucene学习笔记1--索引创建
创建索引代码: public void createIndex(String indexPath, String dataDir) throws IOException { //获取数据源文件列表 File[] files = new File(dataDir).listFiles(); //创建索引目錄 Directory directory = FSDirector
2012-10-13 16:11:27 544
原创 mysql优化经验1
最近需要从数据库读出百万条数据,用分页查询,但是时间太长,于是进行优化 1.发现如果查询结果是有条件的,那么尽量把条件不要写到sql语句中,可以对读取结果进行遍历,获取需要的对象数据 2.分页查询时,当偏移量越大时,后面的分页查询耗时越长,这时就需要我们采用索引的字段进行快速定位到偏移位置,然后读取数据,如下的sql SELECT * FROM A where id >=(select i
2012-10-26 12:10:38 388
原创 jsp中文乱码解决方法
如果是post方法: request.setCharacterEncoding("gb2312"); 如果是get方法: String userName = request.getParameter("username"); byte[] bytes = userName.getBytes("iso-8859-1"); String result = new String(
2012-10-16 10:42:03 390
转载 Eclipse 快捷键大全
|字号 订阅 转自:http://zengzhaoshuai.iteye.com/blog/111428 Ctrl+1 快速修复(最经典的快捷键,就不用多说了) Ctrl+D: 删除当前行 Ctrl+Alt+↓ 复制当前行到下一行(复制增加) Ctrl+Alt+↑ 复制当前行到上一行(复制增加) Alt+↓ 当前行和下面一行交互位置(
2012-10-13 17:12:40 582
原创 paoding自定义词典研究2
我这篇博客的作用是为了解决用户使用paoding分词器时,添加自定义词的时候,有时候不起作用的现象的 我们在使用paoding分词的时候都需要删除.compile文件夹,所以好奇的我就打开了这个文件夹,发现了名字为most-words-mode的文件夹,从名字我们可以看出 这是庖丁分词的模式,即most-words模式,查看此文件夹下的vocabulary.dic.compiled的内
2012-10-13 17:01:35 2942
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人