java过滤非汉字的utf8的字符

http://outofmemory.cn/code-snippet/2616/java-guolv-negate-hanzi-utf8-charaeter

static public String filterOffUtf8Mb4(String text) throws UnsupportedEncodingException {
        byte[] bytes = text.getBytes("utf-8");
        ByteBuffer buffer = ByteBuffer.allocate(bytes.length);
        int i = 0;
        while (i < bytes.length) {
            short b = bytes[i];
            if (b > 0) {
                buffer.put(bytes[i++]);
                continue;
            }
            b += 256;
            if ((b ^ 0xC0) >> 4 == 0) {
                buffer.put(bytes, i, 2);
                i += 2;
            }
            else if ((b ^ 0xE0) >> 4 == 0) {
                buffer.put(bytes, i, 3);
                i += 3;
            }
            else if ((b ^ 0xF0) >> 4 == 0) {
                i += 4;
            }
        }
        buffer.flip();
        return new String(buffer.array(), "utf-8");
    }
utf8是变长字符集,单个字符占用1~4个字节。mysql在选择utf8字符集时,最多只能存储3个字节的utf8字符,如果想要保存任意的utf8字符,数据必须用utf8mb4字符集,有些情况下,不能变更已选定的字符集,只好不得以而为之,把输入中的4个字节的utf8字符全部过滤掉,好在,utf8字符集中,汉字是3个字节的。

  • 1
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 1
    评论
下面是一个基本的字符过滤器的示例代码: ```java import javax.servlet.*; import javax.servlet.http.HttpServletRequest; import java.io.IOException; import java.io.UnsupportedEncodingException; public class CharacterEncodingFilter implements Filter { private String encoding = "UTF-8"; // 默认字符集为UTF-8 @Override public void init(FilterConfig filterConfig) throws ServletException { String encoding = filterConfig.getInitParameter("encoding"); if (encoding != null) { this.encoding = encoding; } } @Override public void doFilter(ServletRequest request, ServletResponse response, FilterChain chain) throws IOException, ServletException { HttpServletRequest req = (HttpServletRequest) request; req.setCharacterEncoding(encoding); chain.doFilter(request, response); } @Override public void destroy() { } } ``` 上述代码中,`CharacterEncodingFilter`是一个实现了`Filter`接口的过滤器类,用于处理表单POST方式提交的中文乱码。过滤器提供了一个`encoding`属性,可以在`web.xml`配置文件中进行配置。如果没有配置,默认使用UTF-8字符集。 过滤器的`init()`方法用于初始化过滤器,在此方法中可以获取`web.xml`中配置的字符集信息。`doFilter()`方法用于处理请求和响应,将请求中的字符集设置为指定的字符集,然后将请求传递给下一个过滤器或Servlet进行处理。最后,`destroy()`方法用于销毁过滤器。 在`web.xml`中配置过滤器的代码如下所示: ```xml <filter> <filter-name>CharacterEncodingFilter</filter-name> <filter-class>com.example.CharacterEncodingFilter</filter-class> <init-param> <param-name>encoding</param-name> <param-value>UTF-8</param-value> </init-param> </filter> <filter-mapping> <filter-name>CharacterEncodingFilter</filter-name> <url-pattern>/*</url-pattern> </filter-mapping> ``` 在上述代码中,`<filter>`标签用于配置过滤器,包括过滤器的名称和类名。`<filter-name>`标签用于指定过滤器的名称,`<filter-class>`标签用于指定过滤器的类名。在这里,过滤器的类名为`com.example.CharacterEncodingFilter`。 `<init-param>`标签用于指定过滤器的初始化参数,例如上面的`encoding`表示字符集编码。`<param-name>`标签用于指定参数名称,`<param-value>`标签用于指定参数值。 `<filter-mapping>`标签用于指定过滤器的映射规则,即将过滤器映射到哪些URL上。在这里,`/*`表示匹配所有URL。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值