java非法字符 u007f_检查字符串中是否有非法字符的最有效方法

最新推荐文章于 2023-04-25 13:03:32 发布

bgwsoye

最新推荐文章于 2023-04-25 13:03:32 发布

阅读量1.2k

点赞数

文章标签： java非法字符 u007f

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_30152861/article/details/114542743

版权

如果非法字符集在许多不同的范围和单独的点上，那么根据这种非法集检查字符串的最有效方法是什么。在

我为两个方法计时，其中一个比另一个慢得多(检查下面的代码，假设我的计时没有问题)。下面的搜索模式方法是否可以改进，而不局限于使用正则表达式import re

import timeit

# match pattern

matchPat = re.compile(r'[^'

r'\u0000-\u0008' # C0 block first segment

r'\u000B\u000C' # allow TAB U+0009, LF U+000A, and CR U+000D

r'\u000E-\u001F' # rest of C0

r'\u007F' # disallow DEL U+007F

r'\u0080-\u009F' # All C1 block

r'\u2028\u2029' # LS and PS unicode newlines

r'\uD800-\uDFFF' # surrogate block

r'\uFFFE\uFFFF' # non-characters

r'\uFEFF]*$', # BOM only allowed at the start of the stream

)

# search pattern

searchPat = re.compile(r'['

r'\u0000-\u0008' # C0 block first segment

r'\u000B\u000C' # allow TAB U+0009, LF U+000A, and CR U+000D

r'\u000E-\u001F' # rest of C0

r'\u007F' # disallow DEL U+007F

r'\u0080-\u009F' # All C1 block

r'\u2028\u2029' # LS and PS unicode newlines

r'\uD800-\uDFFF' # surrogate block

r'\uFFFE\uFFFF' # non-characters

r'\uFEFF]', # BOM only allowed at the start of the stream

)

s = 'allow TAB 0009, LF 000A, and CR 000D -- only allowed at the start of the stream' # sample legal string

def fmatch(s):

if matchPat.match(s):

valid = True

def fsearch(s):

if searchPat.search(s):

valid = False

print ('fmatch==',timeit.timeit("fmatch(s)", setup="from __main__ import fmatch,s", number=1000000))

print ('fsearch==',timeit.timeit("fsearch(s)", setup="from __main__ import fsearch,s", number=1000000))

$ python3 valid.py

fmatch== 5.631323281995719

fsearch== 1.320517893997021

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
java非法字符 u007f_检查字符串中是否有非法字符的最有效方法

如果非法字符集在许多不同的范围和单独的点上，那么根据这种非法集检查字符串的最有效方法是什么。在我为两个方法计时，其中一个比另一个慢得多(检查下面的代码，假设我的计时没有问题)。下面的搜索模式方法是否可以改进，而不局限于使用正则表达式import reimport timeit# match patternmatchPat = re.compile(r'[^'r'\u0000-\u0008' ...
复制链接

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。