java非法字符 u007f_检查字符串中是否有非法字符的最有效方法

如果非法字符集在许多不同的范围和单独的点上,那么根据这种非法集检查字符串的最有效方法是什么。在

我为两个方法计时,其中一个比另一个慢得多(检查下面的代码,假设我的计时没有问题)。下面的搜索模式方法是否可以改进,而不局限于使用正则表达式import re

import timeit

# match pattern

matchPat = re.compile(r'[^'

r'\u0000-\u0008' # C0 block first segment

r'\u000B\u000C' # allow TAB U+0009, LF U+000A, and CR U+000D

r'\u000E-\u001F' # rest of C0

r'\u007F' # disallow DEL U+007F

r'\u0080-\u009F' # All C1 block

r'\u2028\u2029' # LS and PS unicode newlines

r'\uD800-\uDFFF' # surrogate block

r'\uFFFE\uFFFF' # non-characters

r'\uFEFF]*$', # BOM only allowed at the start of the stream

)

# search pattern

searchPat = re.compile(r'['

r'\u0000-\u0008' # C0 block first segment

r'\u000B\u000C' # allow TAB U+0009, LF U+000A, and CR U+000D

r'\u000E-\u001F' # rest of C0

r'\u007F' # disallow DEL U+007F

r'\u0080-\u009F' # All C1 block

r'\u2028\u2029' # LS and PS unicode newlines

r'\uD800-\uDFFF' # surrogate block

r'\uFFFE\uFFFF' # non-characters

r'\uFEFF]', # BOM only allowed at the start of the stream

)

s = 'allow TAB 0009, LF 000A, and CR 000D -- only allowed at the start of the stream' # sample legal string

def fmatch(s):

if matchPat.match(s):

valid = True

def fsearch(s):

if searchPat.search(s):

valid = False

print ('fmatch==',timeit.timeit("fmatch(s)", setup="from __main__ import fmatch,s", number=1000000))

print ('fsearch==',timeit.timeit("fsearch(s)", setup="from __main__ import fsearch,s", number=1000000))

$ python3 valid.py

fmatch== 5.631323281995719

fsearch== 1.320517893997021

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
Java过滤非法字符可以通过使用正则表达式结合过滤器来实现。 首先,我们可以定义一个过滤器类,实现javax.servlet.Filter接口。在过滤器的doFilter方法,我们可以获取请求的参数或者请求的输入流,然后使用正则表达式匹配非法字符。 例如,我们可以使用正则表达式[^\u4e00-\u9fa5a-zA-Z0-9]来匹配除文、英文和数字之外的字符。如果匹配到了非法字符,我们可以将其替换为空字符串或者做其他处理,然后将过滤后的参数再传递给下一个过滤器或者Servlet处理。 下面是一个简单的Java过滤器示例: ```java import javax.servlet.*; import javax.servlet.annotation.WebFilter; import java.io.IOException; import java.util.regex.Matcher; import java.util.regex.Pattern; @WebFilter("/your-servlet-url") public class IllegalCharacterFilter implements Filter { private Pattern illegalCharacterPattern; @Override public void init(FilterConfig filterConfig) throws ServletException { // 初始化非法字符的正则表达式 illegalCharacterPattern = Pattern.compile("[^\\u4e00-\\u9fa5a-zA-Z0-9]"); } @Override public void doFilter(ServletRequest servletRequest, ServletResponse servletResponse, FilterChain filterChain) throws IOException, ServletException { // 获取请求的参数 String parameter = servletRequest.getParameter("your-parameter-name"); if (parameter != null) { // 使用正则表达式过滤非法字符 Matcher matcher = illegalCharacterPattern.matcher(parameter); parameter = matcher.replaceAll(""); // 重新设置过滤后的参数 servletRequest.setAttribute("your-parameter-name", parameter); } // 继续执行过滤器链 filterChain.doFilter(servletRequest, servletResponse); } @Override public void destroy() { // 过滤器销毁时的操作 } } ``` 上述示例,我们通过在过滤器的init方法初始化了非法字符的正则表达式,然后在doFilter方法获取请求参数,并使用正则表达式替换非法字符。最后,将过滤后的参数重新设置到请求,再继续执行过滤器链。 使用这种方式,我们可以有效地过滤掉非法字符,保证输入的数据不包含不合法的内容。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值