句子分块

经常遇到这么一个需求,按照中英文将句子分块。比如一个完整的句子:

本·杰明很happy,因为它妈妈说他是个good boy!

我们需要将它分为如下几块:

本·杰明很
happy
因为它妈妈说他是个
good boy

经常被应用到中文分词里面,我们希望只把中文那块丢到我们的中文分词器。

下面是实现代码:

regex = None


def get_blocks(sent):
    global regex
    if not regex:
        regex = re.compile(u"[\u4E00-\u9FD5·]+|[a-zA-Z ]+")
    return regex.findall(sent)


if __name__ == '__main__':
    text = u'本·杰明很happy,因为它妈妈说他是个good boy!'
    for block in get_blocks(text):
        print(block)
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值