实验中发现原始数据需要进行一些预处理,对于没有意义的一些句子,需要进行删除,当数据量比较大时,一个一个的删除,耗费人力,且没有任何技术含量,花了时间反而很不划算,于是还是编写几句代码来实现该功能。
def deleteByStartAndEnd(s, start, end):
# 找出两个字符串在原始字符串中的位置,开始位置是:开始始字符串的最左边第一个位置,结束位置是:结束字符串的最右边的第一个位置
x1 = s.index(start)
x2 = s.index(end) + len(end) # s.index()函数算出来的是字符串的最左边的第一个位置
# 找出两个字符串之间的内容
x3 = s[x1:x2]
# 将内容替换为控制符串
result = s.replace(x3, "")
return result
if __name__ == '__main__':
s1 = "我就是一段中文测试文本,为了让显得高大上,我还是随便多说几个字吧,反正也是要删除的,哈哈。"
s2 = "qwertyuiopasdfghjklzxcvbnm"
start1 = "测试"
end1 = "几个字吧"
start2 = "opa"
end2 = "zx"
print("====测试中文====")
r1 = deleteByStartAndEnd(s1, start1, end1) # 预测输出结果是:我就是一段中文,反正也是要删除的,哈哈。
print(r1)
print("====测试英文====")
r2 = deleteByStartAndEnd(s2, start2, end2) # 预计输出结果是:qwertyuicvbnm
print(r2)
结果: