python实现文本分割

文本分割是自然语言理解数据预处理中的重要步骤,本段程序实现的是用",。?!…”分割文章,并且分割子句单句成行

import re  
pattern = r"([,。?!…]+)" #正则匹配模式,用+表示至少一个字符
flags = [",","。","?","!","…","……"]
sentence_txt = []
with open("./test.txt","r",encoding="utf-8") as reader_file:
    for line in reader_file:#一行就是一篇文章
        spilt_list = re.split(pattern=pattern, string=line)
        segment = ""
        for segment_i in spilt_list:            
            segment += segment_i
            if segment_i in flags :
                #去除分割子句中的空格,\n,\t等符号,并加上"\r"回车符换行
                sentence_txt.append("".join(segment.split())+"\r")
                segment = ""
        sentence_txt.append("\r")
with open("./spilt.txt","w",encoding="utf-8"
  • 11
    点赞
  • 43
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值