Python-替换或去除不能用于文件名的字符

版权声明:本文为博主原创文章,遵循 CC 4.0 by-sa 版权协议,转载请附上原文出处链接和本声明。
本文链接:https://blog.csdn.net/qq_29303759/article/details/81944733

今天在爬虫的时候,爬了二十条程序就莫名卡着不动了,还以为是被服务器禁止访问。还去加了user-agent池,随机获得user-agent构成headers,没想到居然是最后文件命名的时候出问题了。用于命名的字符串出现了非法的字符。网上查找资料,构造一个函数,通过正则表达式除去字符串中发非法字符:

import re

def validateTitle(title):
    rstr = r"[\/\\\:\*\?\"\<\>\|]"  # '/ \ : * ? " < > |'
    new_title = re.sub(rstr, "_", title)  # 替换为下划线
    return new_title

成功解决问题!

参考:

https://www.polarxiong.com/archives/Python-%E6%9B%BF%E6%8D%A2%E6%88%96%E5%8E%BB%E9%99%A4%E4%B8%8D%E8%83%BD%E7%94%A8%E4%BA%8E%E6%96%87%E4%BB%B6%E5%90%8D%E7%9A%84%E5%AD%97%E7%AC%A6.html

展开阅读全文

没有更多推荐了,返回首页