当用户输入连续的没有空格分隔的全拼时怎么分词?本分词基于汉语拼音的规则进行简单的分词。有以下缺点:
1.xi‘an(西安)这种会不分词,xi’nan(西南)会分成(xin an)新安。没有考虑词频语义。
2.如果其中有非拼音的字母,例如womendekpi,因为kpi无法拆分,则整个分词会失败。
//声母表
static String[] smb = new String[]{"b", "p", "m", "f", "d", "t", "l", "n", "g", "h", "k"
, "j", "q", "x", "z", "c", "s", "r", "y", "w", "zh", "ch", "sh"};
//韵母表
static String[] ymbmax = new String[]{
"iang", "iong", "uang",
"ang", "ong", "eng", "ing", "iao", "ian", "uai", "uan",
"an", "ao", "ai", "ou", "en", "er", "ei",
"ia", "iu",