lua 按utf8编码拆字符串

最新推荐文章于 2025-08-01 00:06:26 发布

原创最新推荐文章于 2025-08-01 00:06:26 发布 · 1.3k 阅读

0 ·

CC 4.0 BY-SA版权

本文探讨了游戏用户注册时如何有效验证汉字输入的问题。通过分析Lua脚本和正则表达式的使用，提供了一种可靠的方法来确保用户输入的合法性。

在做游戏用户注册时用户名要求：只能全是英文字母或者只能是汉字

这个时候出现一个问题汉字该怎么检查呢

local str1 = "发烧发的撒地方"

if str1:match("^[\128-\254]+$") then
print("－－－－－－－－－－－ok2")
else
print("－－－－－－－－－－－－－not ok2")
end

从网上找了上述方法你以为它正确吗？

好吧也正确但是还是会有特殊符号混入进去的比如汉字下的标点符号这些显然是不可靠的

在一个lua的qq群问了一下没人回答（平时挺热闹的今天不知道怎么了看来我人品也有点儿问题呵呵）在quick-x 1 和2 qq群我问了一下

一个qq名 ”少年:“ 的大神说：“ 你要吧字符串拆了按utf8编码拆了” 然后他贴出了一些方法：见下，

function string.utf8find(input,patter)
    local len = string.len(input)
    local left = len

    local arr = {0, 0xc0, 0xe0, 0xf0, 0xf8, 0xfc }
    local tb = {}
    local tb2 = {}

    --拆源
    while left ~= 0 do
        local tmp = string.byte(input, -left)
        local i = #arr
        while arr[i] do
            if tmp >= arr[i] then
                left = left - i
                break
            end
            i = i - 1
        end
        if i == 1 then
            tb[#tb+1] = string.char(tmp)
        else
            tb[#tb+1] = string.sub(input,len-left-i +1,len-left)
        end
    end

    len = string.len(patter)
    left = len
    --拆子
    while left ~= 0 do
        local tmp = string.byte(patter, -left)
        local i = #arr
        while arr[i] do
            if tmp >= arr[i] then
                left = left - i
                break
            end
            i = i - 1
        end
        if i == 1 then
            tb2[#tb2+1] = string.char(tmp)
        else
            tb2[#tb2+1] = string.sub(patter,len-left-i +1,len-left)
        end
    end

    local tlen1 = #tb
    local tlen2 = #tb2

    local index1 = 1
    local index2 = 1

    local matchnum = 0

    for i = 1, tlen1 do
        --源字符串的首字符
        local c1 = tb[i]
        if c1 == tb2[1] then
            index1 = i
            matchnum = 1
            for j = 2,tlen2 do
                if tb[index1+j-1] == tb2[j] then
                    matchnum = matchnum + 1
                    index1 = index1 + 1
                else
                    break
                end
            end

            if matchnum == tlen2 then
                return true
            end
        end
    end

    return false
end

当然还有一个大神 “喵一哈” 说：“关键是分字，把中文分出来” 给了我网址：https://github.com/alexander-yakushev/awesomerc/blob/master/awesompd/utf8.lua
还有很多大神和同学的帮忙不是重点不写了在此表示感谢

上面的方法和网址中的方法我还没有来得及验证但是光看方法就有很多可取和学习的地方在此记录下赶快搬砖走起，，，

编程中有时候需要用到匹配中文的正则，一般用 [ \u4e00-\u9fa5]+ 即可搞定。不过这正则对一般的火星文鸟语就不太适用了，甚至全角的标点符号都不包含在内。例如游戏里面的玩家名，普通青年一般都是汉字，文艺青年会加几个特殊字符，2B青年火星文鸟语都会用上；这时候你就需要更强大的正则了。其实，游戏内大部分的玩家名都取自：中日韩统一表意文字（CJK Unified Ideographs），外加一些特殊的字符；用 [ \u2E80-\uFE4F]+基本都涵盖了。