IKAnalyzer2012FF_u1.jar 以及PinYin4J 使用出现的问题

在使用IKAnalyzer2012FF_u1.jar与PinYin4J集成Solr时遇到挑战,由于maven仓库未包含该jar,需手动添加至本地依赖。在尝试为IKAnalyzer创建TokenizerFactory失败后,选择在Solr配置中通过单独字段处理分词。此外,提供了一个拼音转换工具类的代码参考。
摘要由CSDN通过智能技术生成

1. jar包不存在于maven仓库  需要添加到仓库中  或者使用本地依赖 。  

 <dependency>
            <groupId>org.wltea.ik-analyzer</groupId>
            <artifactId>ik-analyzer</artifactId>
            <version>2012FF_u1</version>
            <scope>system</scope>
            <!--<systemPath>${basedir}/src/main/webapp/WEB-INF/lib/IKAnalyzer2012FF_u1.jar</systemPath>-->
            <systemPath>C:/Users/Administrator/Desktop/ik/IKAnalyzer2012FF_u1.jar</systemPath>
        </dependency>

2.  在使用solr配置IK和pinyin4j的组合时,发现IKAnalyzer2012FF_u1 中并没有TokenizerFactory  ,无法生成拼音自动分词转换的fired  ,因为项目时间紧,后来放弃了给Ik编写一个TokenizerFactory  加到Jar包的想法(其实就是编译好麻烦) ,然后直接在solr中设置一个普通域 在服务器分词之后放入solr域的形式

依赖

Java code
?
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
 /**
     * solr用方法
     *          讲文字转换为拼音
     *          字符串为 拼接 中间使用 分割 每个字符串转换为首字母与全拼形势
     *              例:  文字  ==wenzi wz
     *                  2017/4/6  更改  首字母拼写放弃使用
     *
     * @param initString
     * @return
     * @throws IOException
     */
    @Override
    public String pinYinAnalysis(String initString) throws IOException {
        StringBuffer sb = new StringBuffer();
        if(StringUtils.isBlank(initString)){
            return "";
        }
        StringReader sr=new StringReader(initString);
        IKSegmenter ik=new IKSegmenter(sr, true);
        Lexeme lex=null;
        while((lex=ik.next())!=null){
            String lexemeText = lex.getLexemeText();
		//匹配年份
            if (lexemeText.matches("(19[0-9][0-9]|200|201[0-9])")){
                lexemeText = lexemeText.replaceAll("[^0-9]","");
            }
            sb.append( PinYinUtils.cnToPinYin(lex.getLexemeText())).append(" ");
//            .append(PinYinUtils.cnToFirstSpell(lex.getLexemeText())).append(" ");
        }
        return sb.toString();
    }

3  。 拼音转换工具类

/、、、、、、、、、、、、、、、、、、、、、、、

package com.maizhong.common.utils;

import net.sourceforge.pinyin4j.PinyinHelper;
import net.sourceforge.pinyin4j.format.HanyuPinyinCaseType;
import net.sourceforge.pinyin4j.format.HanyuPinyinOutputFormat;
import net.sourceforge.pinyin4j.format.HanyuPinyinToneType;
import net.sourceforge.pinyin4j.format.exception.BadHanyuPinyinOutputFormatCombination;

/**
 * chinese2pinyin  工具包  提供汉字转换拼音功能
 *
 * Created by YangF on 2017/4/6.
 */
public class PinYinUtils {

    public static void main(String[] args) {
        cnToPinYin("她在说谎");
    }

    /**
     * 获取汉字串拼音,英文字符不变
     *
     * @param chinese 汉字串
     * @return 汉语拼音
     */
    public static String cnToPinYin(String chinese) {
        StringBuffer pybf = new StringBuffer();
        char[] arr = chinese.toCharArray();
        HanyuPinyinOutputFormat defaultFormat = new HanyuPinyinOutputFormat();
        defaultFormat.setCaseType(HanyuPinyinCaseType.LOWERCASE);
        defaultFormat.setToneType(HanyuPinyinToneType.WITHOUT_TONE);
        for (int i = 0; i < arr.length; i++) {
            if (arr[i] > 128) {
                try {
                    pybf.append(PinyinHelper.toHanyuPinyinStringArray(arr[i], defaultFormat)[0]);
                } catch (BadHanyuPinyinOutputFormatCombination e) {
                    e.printStackTrace();
                }
            } else {
                pybf.append(arr[i]);
            }
        }
        return pybf.toString();
    }



    /**
     * 获取汉字串拼音首字母,英文字符不变
     *
     * @param chinese 汉字串
     * @return 汉语拼音首字母
     */
    public static String cnToFirstSpell(String chinese) {
        StringBuffer pybf = new StringBuffer();
        char[] arr = chinese.toCharArray();
        HanyuPinyinOutputFormat defaultFormat = new HanyuPinyinOutputFormat();
        defaultFormat.setCaseType(HanyuPinyinCaseType.LOWERCASE);
        defaultFormat.setToneType(HanyuPinyinToneType.WITHOUT_TONE);
        for (int i = 0; i < arr.length; i++) {
            if (arr[i] > 128) {
                try {
                    String[] _t = PinyinHelper.toHanyuPinyinStringArray(arr[i], defaultFormat);
                    if (_t != null) {
                 
  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值