java非法字符 u007f_检查字符串中是否有非法字符的最有效方法

如果非法字符集在许多不同的范围和单独的点上,那么根据这种非法集检查字符串的最有效方法是什么。在

我为两个方法计时,其中一个比另一个慢得多(检查下面的代码,假设我的计时没有问题)。下面的搜索模式方法是否可以改进,而不局限于使用正则表达式import re

import timeit

# match pattern

matchPat = re.compile(r'[^'

r'\u0000-\u0008' # C0 block first segment

r'\u000B\u000C' # allow TAB U+0009, LF U+000A, and CR U+000D

r'\u000E-\u001F' # rest of C0

r'\u007F' # disallow DEL U+007F

r'\u0080-\u009F' # All C1 block

r'\u2028\u2029' # LS and PS unicode newlines

r'\uD800-\uDFFF' # surrogate block

r'\uFFFE\uFFFF' # non-characters

r'\uFEFF]*$', # BOM only allowed at the start of the stream

)

# search pattern

searchPat = re.compile(r'['

r'\u0000-\u0008' # C0 block first segment

r'\u000B\u000C' # allow TAB U+0009, LF U+000A, and CR U+000D

r'\u000E-\u001F' # rest of C0

r'\u007F' # disallow DEL U+007F

r'\u0080-\u009F' # All C1 block

r'\u2028\u2029' # LS and PS unicode newlines

r'\uD800-\uDFFF' # surrogate block

r'\uFFFE\uFFFF' # non-characters

r'\uFEFF]', # BOM only allowed at the start of the stream

)

s = 'allow TAB 0009, LF 000A, and CR 000D -- only allowed at the start of the stream' # sample legal string

def fmatch(s):

if matchPat.match(s):

valid = True

def fsearch(s):

if searchPat.search(s):

valid = False

print ('fmatch==',timeit.timeit("fmatch(s)", setup="from __main__ import fmatch,s", number=1000000))

print ('fsearch==',timeit.timeit("fsearch(s)", setup="from __main__ import fsearch,s", number=1000000))

$ python3 valid.py

fmatch== 5.631323281995719

fsearch== 1.320517893997021

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值