文本文件中的空格、换行符、制表符的去除

爬了一段文本,保存为文本文档后,有很多很多空格,刚看了python的正则表达式,尝试着使用re模块去除文本内容中的空格。

import re
f=open("duanzi.txt")
data=f.read()
print(data)
f.close()
out=open('output.txt','w')
str=data #待匹配的文本
m=re.compile('\s+')
outdata=re.sub(m,'',str)
print(outdata) #输出格式化后文本
out.write(outdata)
out.close()


这里用到了re模块的compile()函数和sub()函数。
re是regular expression的所写,表示正则表达式
sub是substitute的所写,表示替换;
re.sub是个正则表达式方面的函数,用来实现通过正则表达式,实现比普通字符串的replace更加强大的替换功能;
对于输入的一个字符串,利用正则表达式,能实现比较复杂的字符串替换处理,返回处理后的字符串
re.sub的各个参数的详细解释
re.sub共有五个参数。
re.sub(pattern, repl, string, count=0, flags=0)
其中三个必选参数:pattern, repl, string
两个可选参数:count, flags
主要的意思为:对字符串string按照正则表达式pattern,将string的匹配项替换成字符串repl。 
公式解析: 
pattern为表示正则中的模式字符串, 
repl为replacement,被替换的内容,repl可以是字符串,也可以是函数。 
string为正则表达式匹配的内容。 
count:由于正则表达式匹配到的结果是多个,使用count来限定替换的个数(顺序为从左向右),默认值为0,替换所有的匹配到的结果。 
flags是匹配模式,可以使用按位或’|’表示同时生效,也可以在正则表达式字符串中指定。

  • 0
    点赞
  • 6
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值