任务:
使用编辑距离实现英语单词纠错。
实现:
1、先面向过程实现即可
面向过程实现
准备工作:
1、准备一个英语词典
实现过程:
1、初始化/构造:将词典加载到set中 (N)
2、将用户的英语句子分割成单词存入数组中,对数组中每个单词进行纠错 (M)
3、将取出的单词和set中的词典单词逐个比较,纠错:(M)
1)在的话,跳过
2)不在,就使用编辑距离纠错:
a.将当前错误单词和词典里的单词逐个计算编辑距离 N*(PlogP)
b.将编辑距离最小的输出/替换
ps:有可能有多个相同的编辑距离的候选单词,取其中一个即可。
时间复杂度:MN(PlogP)
分词-算法/方法:
根据空格/标点,将所有单词拆开
```package dao;
import java.io.BufferedReader;
import java.io.File;
import java.io.FileInputStream;
import java.io.FileReader;
import java.io.InputStreamReader;
import java.util.ArrayList;
import java.util.HashSet;
import java.util.List;
import java.util.Scanner;
import java.util.Set;
import java.util.regex.Matcher;
import java.util.regex.Pattern;
import org.junit.internal.runners.model.EachTestNotifier;
import sun.print.resources.serviceui;
public class EnglishWordCorrector {
public static void main(String[] args) {
String path = "C://Users//admin//Desktop//Spell.txt";//文件路径
//1 英语词典的遍历
Set<String> dict = readWordFile();
//2 英语文章的遍历
List<String> englishList = getEnglishCharacter(path);
//3 英语文章的修改
int i=0;
String regex = "^[a-zA-Z]+$";
for(String str : englishList){
if(str.matches(regex)){
if(!dict.contains(str)){
englishList.set(i, getCorrectWord(str));
}
}
i++;
}
int next_count = 0;
for(String str:englishList){
next_count++