java mysql 设置编码_注意事项--编码问题(java mysql )

primary

key(docid))ENGINE = MYISAM;

上面的保证了数据库使用的编码格式是mysql的默认格式,即latin1.进入mysql后通过

show variables like

"%char%"来看编码格式,可以发现除了file

system是utf8(这个是linux的默认编码格式)外,其他的都是mysql的编码,均为latin1.

第二个改动:由于是利用java调用的mysql,经过试验发现mysql本身读出的内容是没有问题的,但是通过java调用之后就出现乱码了,而且更奇怪的是,我们以前通过c++直接调用mysql的时候也是没有问题的,现在是相同的程序,相同的功能,相同的参数,为什么到了java下就出现问题了呢?原因只有一个,以前在c++下与在java下调用mysql出问题了。我们以前整理的时候也提到这个问题,mysql的访问方式有两种,第一种是通过语句直接访问,第二种是通过jdbc来访问。到现在就显而易见了,也就是说通过jdbc访问mysql的时候出问题了。为什么?java下的默认编码是iso-8859-1,而mysql我们说了是latin1,所以在利用jdbc进行getConnection的时候必须强制制定Encoding=latin1.

getConnectionUtl里面将改动为:("?useUnicode=false&characterEncoding=latin1&characterSetResult=latin1");

这个改动就保证了,通过jdbc读取的也是latin1编码的形式。

第三个改动:从数据库中读出的数据我们拿去分词的时候又有问题了。因为我们知道java是iso-8859-1编码的,而我们

分词工具je-analysis只能对utf8编码的文件进行分词(这个简单写一个测试文件测试就知道究竟是哪种编码格式了),

所以这里还要进行一步转换。

//从数据中读取数据(此时数据数据的编码是lantil,即ISO-8859-1)

String content=rs.getString(2);

//得到该字符串的byte数组

byte[] bytes =content.getBytes("ISO-8859-1");

//编码转化,从ISO-8859-1到utf8(因为分词工具要输入字符串编码就是utf8)

content=new String(bytes,"utf8");

//建立索引

Document doc =FileDocument.Document(docid,content);

writer.addDocument(doc);

Class:rawfile gb2312

Dup:rawfile utf8

Rank:rawfile utf8

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值