- 问题描述
在做自然语言处理时,经常遇到从文本文件中读取字符串,并删除其中不需要的内容。本案例给出一种基于Python的处理方法,删除读取到的文本数据中具有规律性但是不需要的数据。基本流程为:读取文本文件(每一行存储一条文本数据),删除每个字符串开头部分的子串,再删除中间某一段子串,最后把清理后的字符串写入一个文本文件。
- 算法实现
#读取文本文件
def ReadTxtFile( fileName ):
with open( fileName, mode = 'r', encoding = 'utf-8' ) as fp:
lineNum = 0
dataTxt = []
for line in fp:
if lineNum < 5: #只读取前5行
lineNum += 1
dataTxt.append( line )
else:
break
return dataTxt, lineNum
#删除不需要的子串
def DeletePartTxtData( dataTxt, lineNum ):
data = []
ind = 0
txt =[]
for i in range( lineNum ):
txt = str( dataTxt[i] )
ind = txt.find( &#