python英文分句_教你如何对英文段落进行分句

在NLP处理中,常需要对英文段落进行分句。本文介绍了两种Python分句方法:1) 使用split函数结合句子分割符(. ? !);2) 利用nltk的sent_tokenize库。通过示例代码展示如何实现这两个方法。
摘要由CSDN通过智能技术生成

做nlp的时候,我们数据往往是一篇文章或者一大段文字,在进行其他处理之前,你需要先对文章进行切割或者处理(去除多余字符、特殊符号,分句和分词),或者是分句以句子级别为最小单位进行后续处理。那么如何进行分句呢?

比如有下面一段文本:First, it takes time to accomplish a task —— the earlier you begin,the more likely you will reach your goal earlier. Otherwise you call never be sure of your success. Second, when diligence becomes a habit, nothing will be difficult to a determined and persistent person. For example, you will never feel bored and tired at doing social investigation if you really enjoy it. Third, looking at the matter from another perspective, we will find that social resources are always limited and opportunities are always for those prepared minds.

如何进行分句呢?下面介绍两种方法:

一、规则匹配

一般情况下我们可以通过python的split等函数快速完成切分任务,主要的分割特征如下:大概这些句子分割符(. ? !);

可以使用split函数进行分割,可以得到新的列表,例如下面的函数;

def sentence_split(str_

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值