python处理文本文件删除不要字符_Python处理文本中的控制字符

最新推荐文章于 2023-12-11 16:01:50 发布

weixin_39526564

最新推荐文章于 2023-12-11 16:01:50 发布

阅读量216

点赞数

文章标签： python处理文本文件删除不要字符

先前在使用Python进行抓取的时候，遇到读取数据的错误。经过分析发现原来返回的HTML中包含控制字符（原来防爬虫还可以这么干，控制字符在抓取程序中容易引起报错，但是在浏览器中呈现给用户的时候确没有什么影响）。

什么是控制字符？

控制字符（Control Character），或者说非打印字符，出现于特定的信息文本中，表示某一控制功能的字符，如控制符：LF（换行）、CR（回车）、FF（换页）、DEL（删除）、BS（退格)、BEL（振铃）等；通讯专用字符：SOH（文头）、EOT（文尾）、ACK（确认）等。

具体控制字符一共有下面两个集合：

七位ASCII定义了33个代码作为控制字符，它们是0到31、以及127，（位于0x00-0x1F及0x7F）

兼容的八位ISO/IEC 8859-1加上了从ISO/IEC 6429定义的从128到159的32个代码，位于0x80-0x9F

Python解决控制字符的方案

方案一：

strip_control_characters = lambda s:"".join(i for i in s if 31

方案二：

def strip_control_characters(str_input):

if str_input:

import re

# unicode invalid characters

RE_XML_ILLEGAL = u'([\u0000-\u0008\u000b-\u000c\u000e-\u001f\ufffe-\uffff])' + \

u'|' + \

u'([%s-%s][^%s-%s])|([^%s-%s][%s-%s])|([%s-%s]$)|(^[%s-%s])' % \

(unichr(0xd800),unichr(0xdbff),unichr(0xdc00),unichr(0xdfff),

unichr(0xd800),unichr(0xdbff),unichr(0xdc00),unichr(0xdfff),

unichr(0xd800),unichr(0xdbff),unichr(0xdc00),unichr(0xdfff),

)

str_input = re.sub(RE_XML_ILLEGAL, "", input)

# ascii control characters

str_input = re.sub(r"[\x01-\x1F\x7F]", "", input)

return str_input

方案三：

import re

def remove_control_chars(s):

control_chars = ''.join(map(unichr, range(0,32) + range(127,160)))

control_char_re = re.compile('[%s]' % re.escape(control_chars))

return control_char_re.sub('', s)

cleaned_json = remove_control_chars(original_json)

obj = simplejson.loads(cleaned_json)

参考链接：

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。