Java实现英文段落分句_java英文段落拆分成句(Split an article into sentences)

本文介绍了使用Java和lingpipe库来处理英文段落,将其准确地拆分成句子。在处理过程中,作者遇到了缩略词、日期、单位等问题,通过lingpipe的SentenceModel解决了这些问题。提供了示例代码展示如何处理包含中文标点的文本,并提醒注意JDK版本和句子的标点完整性。
摘要由CSDN通过智能技术生成

最近研究一個翻譯系統,對老師上傳的一段文本自動拆分成句,乍一聽好像很簡單哦,split分隔下句號不就完事了嘛!。。。mdzz還是太年輕,一不小心上當了,還有嘆號問好雙引號呢~!當然這個也不算什么,找個正則表達式就好啦^_^!太天真了!!!勞資突然發現英文簡直了,竟然還有縮略詞!!!這尼瑪怎么分析哦,一頓翻山越嶺,發現國內的相關文章有限,對於縮略詞都不能有很好的支持,於是在這個時間段,國內嚴禁翻牆的時間。。。我偷偷翻牆去問問歪果仁了,警察叔叔不要抓我,我只是愛學習的騷年Σ( ° △ °|||)︴    然而實際情況是,歪果仁自己也煩躁他們自己的語言太事逼。。。為什么就不能像中文一樣有明顯的句子邊界呢。。。好吧,我特么也是醉了,正當我一籌莫展之際,一個白胡子老頭從天而降,說,騷年,需要幫助嗎。別誤會,不是援助交際ヽ(=^・ω・^=)丿。。。好吧言歸正傳,我看到了NLP,並找到了lingpipe,引用起來相當簡單,一個下午從接觸到實現徹底搞定,說了一堆廢話,開始正文!

import java.util.ArrayList;

import java.util.List;

import com.aliasi.sentences.IndoEuropeanSentenceModel;

import com.aliasi.sentences.SentenceModel;

import com.aliasi.tokenizer.IndoEuropeanTokenizerFac

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值