基于Python的删除子串处理案例

本文介绍如何在自然语言处理中使用Python处理文本数据,具体操作包括读取文本文件,删除每条文本数据开头和中间特定子串,然后将处理后的数据写入新文件。
摘要由CSDN通过智能技术生成
  • 问题描述

在做自然语言处理时,经常遇到从文本文件中读取字符串,并删除其中不需要的内容。本案例给出一种基于Python的处理方法,删除读取到的文本数据中具有规律性但是不需要的数据。基本流程为:读取文本文件(每一行存储一条文本数据),删除每个字符串开头部分的子串,再删除中间某一段子串,最后把清理后的字符串写入一个文本文件。

  • 算法实现
#读取文本文件
def ReadTxtFile( fileName ):
    with open( fileName, mode = 'r', encoding = 'utf-8' ) as fp:
        lineNum = 0
        dataTxt = []
        for line in fp:
            if lineNum < 5: #只读取前5行
                lineNum += 1
                dataTxt.append( line )
            else:
                break
    return dataTxt, lineNum
#删除不需要的子串
def DeletePartTxtData( dataTxt, lineNum ):
    data = []
    ind = 0
    txt =[]
    for i in range( lineNum ):
        txt = str( dataTxt[i] )
        ind = txt.find( &#
  • 3
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值