lucence返回高亮之后,就是utf-8编码,如果页面内容包含html代码页面会奔溃, 如果在页面上转编码,则会出现原始编码,所有不要在页面转码。 再抽词处理的时候,使用最新版本的抽词,好像可以避免lucence的编码问题