最近研究一個翻譯系統,對老師上傳的一段文本自動拆分成句,乍一聽好像很簡單哦,split分隔下句號不就完事了嘛!。。。mdzz還是太年輕,一不小心上當了,還有嘆號問好雙引號呢~!當然這個也不算什么,找個正則表達式就好啦^_^!太天真了!!!勞資突然發現英文簡直了,竟然還有縮略詞!!!這尼瑪怎么分析哦,一頓翻山越嶺,發現國內的相關文章有限,對於縮略詞都不能有很好的支持,於是在這個時間段,國內嚴禁翻牆的時間。。。我偷偷翻牆去問問歪果仁了,警察叔叔不要抓我,我只是愛學習的騷年Σ( ° △ °|||)︴ 然而實際情況是,歪果仁自己也煩躁他們自己的語言太事逼。。。為什么就不能像中文一樣有明顯的句子邊界呢。。。好吧,我特么也是醉了,正當我一籌莫展之際,一個白胡子老頭從天而降,說,騷年,需要幫助嗎。別誤會,不是援助交際ヽ(=^・ω・^=)丿。。。好吧言歸正傳,我看到了NLP,並找到了lingpipe,引用起來相當簡單,一個下午從接觸到實現徹底搞定,說了一堆廢話,開始正文!
import java.util.ArrayList;
import java.util.List;
import com.aliasi.sentences.IndoEuropeanSentenceModel;
import com.aliasi.sentences.SentenceModel;
import com.aliasi.tokenizer.IndoEuropeanTokenizerFac