python切分句子

import re


def remove_space(text):
    """
    去除空格
    """
    text = text.replace(' ', '')
    return text


def sentence_split(text):
    """
    将一个段落分成若干句子,以分号,句号作为切分。
    """
    text = remove_space(text)

    start = 0
    result = []
    groups = re.finditer(';|;|。', text)

    for i in groups:
        end = i.span()[1]
        result.append(text[start:end])
        start = end
    # last one
    result.append(text[start:])
    
    return result


def main(path_in, path_out):
    """
    读取整个jsonl文件逐个分析
    """
    fout = open(path_out, 'w', encoding='utf8')

    with open(path_in) as f:
        lines = f.readlines()

    for lin in lines:
        text = eval(lin)['text']
        result = sentence_split(text)
        for i in result:
            fout.write('{}\n'.format(i))
    fout.close()


text = "1.具备电子产品知识;   2. 工单缺料情况。跟催物控或采购"
data = sentence_split(text)
print(data)
# path_in = 'text.jsonl'
# path_out = 'text'
# main(path_in, path_out)

## output:
## ['1.具备电子产品知识;', '2.工单缺料情况。', '跟催物控或采购']
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值