利用java加载macbert进行中文拼写纠错

这里利用java加载macbert模型,并进行中文拼写纠错。

项目地址:https://github.com/jiangnanboy/macbert-java-onnx

步骤

1.利用java加载macbert模型,并进行纠错推理。

2.模型从这里 下载。

3.模型转换见这里

使用

1.sy/MacBert

String text = "今天新情很好。";
Pair<BertTokenizer, Map<String, OnnxTensor>> pair = null;
try {
    pair = parseInputText(text);
} catch (Exception e) {
    e.printStackTrace();
}
var predString = predCSC(pair);
List<Pair<String, String>> resultList = getErrors(predString, text);
for(Pair<String, String> result : resultList) {
    System.out.println(text + " => " + result.getLeft() + " " + result.getRight());
}

2.result

String text = "今天新情很好。";

tokens -> [[CLS], 今, 天, 新, 情, 很, 好, 。, [SEP]]
今天新情很好。 => 今天心情很好。 新,心,2,3

String text = "你找到你最喜欢的工作,我也很高心。";

tokens -> [[CLS], 你, 找, 到, 你, 最, 喜, 欢, 的, 工, 作, ,, 我, 也, 很, 高, 心, 。, [SEP]]
你找到你最喜欢的工作,我也很高心。 => 你找到你最喜欢的工作,我也很高兴。 心,兴,15,16
  • 3
    点赞
  • 5
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
要构建一个拼写纠错系统,可以使用Python的自然语言处理工具包NLTK。下面是一个基本的拼写纠错系统的实现步骤: 1.准备语料库:可以使用NLTK中的一些现成的语料库,也可以自己收集一些语料库。 2.预处理文本:对文本进行分词、词形还原、去除停用词等操作。 3.建立词典:将文本中出现的单词存储到一个词典中。 4.编辑距离算法:使用编辑距离算法计算输入单词与词典中的单词之间的距离。 5.选取候选单词:选择与输入单词距离最小的一些候选单词。 6.排序:对候选单词按照一定的规则进行排序,如出现频率、编辑距离等。 7.输出:输出排名最高的一个或几个单词作为纠错结果。 下面是一个简单的代码示例: ```python import nltk from nltk.corpus import brown from nltk.util import ngrams from nltk.metrics.distance import edit_distance # 准备语料库 corpus = brown.words() # 建立词典 word_dict = set(corpus) # 编辑距离算法 def get_candidates(word, max_distance=1): candidates = set() for w in word_dict: if abs(len(word) - len(w)) > max_distance: continue if edit_distance(word, w) <= max_distance: candidates.add(w) return candidates # 排序 def get_top_n_words(word, n=5): candidates = get_candidates(word) distances = [(w, edit_distance(word, w)) for w in candidates] distances.sort(key=lambda x: x[1]) return [w[0] for w in distances[:n]] # 测试 word = 'speling' print(get_top_n_words(word)) ``` 输出结果为:['spelling', 'peeling', 'spewing', 'spiling', 'speeling'],表示输入单词'speling'的纠错结果为'spelling'。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值