primary
key(docid))ENGINE = MYISAM;
上面的保证了数据库使用的编码格式是mysql的默认格式,即latin1.进入mysql后通过
show variables like
"%char%"来看编码格式,可以发现除了file
system是utf8(这个是linux的默认编码格式)外,其他的都是mysql的编码,均为latin1.
第二个改动:由于是利用java调用的mysql,经过试验发现mysql本身读出的内容是没有问题的,但是通过java调用之后就出现乱码了,而且更奇怪的是,我们以前通过c++直接调用mysql的时候也是没有问题的,现在是相同的程序,相同的功能,相同的参数,为什么到了java下就出现问题了呢?原因只有一个,以前在c++下与在java下调用mysql出问题了。我们以前整理的时候也提到这个问题,mysql的访问方式有两种,第一种是通过语句直接访问,第二种是通过jdbc来访问。到现在就显而易见了,也就是说通过jdbc访问mysql的时候出问题了。为什么?java下的默认编码是iso-8859-1,而mysql我们说了是latin1,所以在利用jdbc进行getConnection的时候必须强制制定Encoding=latin1.
getConnectionUtl里面将改动为:("?useUnicode=false&characterEncoding=latin1&characterSetResult=latin1");
这个改动就保证了,通过jdbc读取的也是latin1编码的形式。
第三个改动:从数据库中读出的数据我们拿去分词的时候又有问题了。因为我们知道java是iso-8859-1编码的,而我们
分词工具je-analysis只能对utf8编码的文件进行分词(这个简单写一个测试文件测试就知道究竟是哪种编码格式了),
所以这里还要进行一步转换。
//从数据中读取数据(此时数据数据的编码是lantil,即ISO-8859-1)
String content=rs.getString(2);
//得到该字符串的byte数组
byte[] bytes =content.getBytes("ISO-8859-1");
//编码转化,从ISO-8859-1到utf8(因为分词工具要输入字符串编码就是utf8)
content=new String(bytes,"utf8");
//建立索引
Document doc =FileDocument.Document(docid,content);
writer.addDocument(doc);
Class:rawfile gb2312
Dup:rawfile utf8
Rank:rawfile utf8