![](https://img-blog.csdnimg.cn/20201014180756930.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
clucene
sealbird
这个作者很懒,什么都没留下…
展开
-
使用clucene对汉字文本进行索引
Java的lucene是正统,功能更强大,开发快速,而且和J2EE天然融合(都是使用Java),怎么看都比clucene强多了。那为什么要使用clucene呢?原因有两个: 一:C++的速度快。当对索引速度有更高数量级的要求时,单纯设置MergeFactor和MinMergeDocNum无法实现的。 二:索引的内容如果是另外的C++写的工具的结果,那么用clucene就比luc...原创 2010-12-17 17:00:50 · 226 阅读 · 0 评论 -
clucene 读源码记录
[b]0\ iconv 的使用[/b][url]http://www.gnu.org/software/libc/manual/html_node/iconv-Examples.html#iconv-Examples[/url][b]1\ TestUtf8 中的 测试把GBK中的数据转换为unicode,然后索引[/b] [code="c++"]void _Index(CuTest *tc...原创 2011-01-17 16:18:16 · 150 阅读 · 0 评论 -
小记:ICONV库,开源的编码转换工具
[quote]小记:ICONV库,开源的编码转换工具 ICONV库是GNU提供的开源编码转换库,在LINUX下已经默认包含于系统中。对于开发者来说,已经存在/usr/include/iconv.h文件,链接时无需加入库名称。 在WINDOWS下需要下载库的安装程序:LibIconv for Windows库的网址为:http://gnuwin32.sourceforge.net...原创 2011-01-14 17:32:01 · 637 阅读 · 0 评论 -
iconv clucene
[code="java"]//////////////////////////////////////////////////////////////////////////////////////// 此内容摘自 linux 上 iconv 命令程序代码,目的在于处理转码出现无效字符的情况/////////////////////////////////////////////////...原创 2011-01-14 16:17:29 · 102 阅读 · 0 评论 -
WideCharToMultiByte和MultiByteToWideChar函数的用法
为了支持Unicode编码,需要多字节与宽字节之间的相互转换。这两个系统函数在使用时需要指定代码页,在实际应用过程中遇到乱码问题,然后重新阅读《Windows核心编程》,总结出正确的用法。WideCharToMultiByte的代码页用来标记与新转换的字符串相关的代码页。MultiByteToWideChar的代码页用来标记与一个多字节字符串相关的代码页。常用的代码页由CP_ACP和C...原创 2010-12-22 13:55:42 · 123 阅读 · 0 评论 -
CLucene源码剖析(三) 实现跨平台的线程安全
首页 > CLucene, 程序人生 > CLucene源码剖析(三) 实现跨平台的线程安全 CLucene源码剖析(三) 实现跨平台的线程安全2009年5月29日 小武哥 发表评论 阅读评论 在多线程编程中,程序的线程安全(thread-safe)是十分重要的,要做到这一点,一方面要在程序设计的过程中,尽可能设计多的单线程访问的数据结构,一方面就是合理的使用锁(Mutex)。...原创 2010-12-21 17:55:11 · 208 阅读 · 0 评论 -
wchar 与 char 的互换
[code="c++"] #include #include #include using namespace std;//#include char *w2c(char *pcstr,const wchar_t *pwstr, size_t len);void c2w(wchar_t *pwstr,size_t len,const char *str...原创 2010-12-21 12:46:49 · 114 阅读 · 0 评论 -
Clucene C++编码转换
Clucene C++编码转换 在做Clucene与lucene生成的Index文件相互兼容时,遇到了编码转换问题。它们的兼容性对于非英文的编码可能都会存在这样的问题,经过跟踪clucene程序,发现它用的是unicode编码方式储蓄,因此,要先把字符串或文件转换成unicode编码,然后再进行其它处理。转换的具体代码如下(Linux与vc6.0测试通过):[code="c++...原创 2010-12-20 09:27:20 · 166 阅读 · 0 评论 -
CLucene 中文分词
CLucene 中文分词 clucene是c++版的lucene,可从CLucene - a C++ search engine http://sourceforge.net/projects/clucene/下载得到代码和最近研究信息。我在看了《lucene in arction》一周之后,在7月中旬正式开始调研clucene,由于其中的中文不能再demo示例中检索得到,在网上收集...原创 2010-12-17 18:43:04 · 183 阅读 · 0 评论 -
Clucene实现中文分词搜索(转载)
Clucene实现中文分词搜索(转载)2008年05月23日 星期五 17:42最近,一阵忙乎,终于在Clucene(版本0.9.16)中实现了中文分词搜索。一些需要改动的地方如下: 一、 把项目设置为Use Unicode Character Set。因为使用ANSI时,汉字存在与其他语言编码重叠的问题,不能准确判断是否为汉字。 ...原创 2010-12-17 17:21:30 · 136 阅读 · 0 评论 -
clucene编译
一\第一:在CLconfig.h中linux选择#define _ASCII,在windows下选择#define UCS2第二:下面是编译过程1.进入根目录2.运行./autogen.sh(如果没有权限的话,利用chmod a+x改变权限)3.运行./configure3._1 make4.进入src目录,运行make monolithic,在该目...原创 2010-11-28 15:52:09 · 181 阅读 · 0 评论