统计中英文混合文本长度java版

public class StringCount {
    private static int countWords(String str) {
        if (str == null || str.length() <= 0) {
            return 0;
        }
        int len = 0;
        char c;
        for (int i = str.length() - 1; i >= 0; i--) {
            c = str.charAt(i);
            if ((c >= '0' && c <= '9') || (c >= 'a' && c <= 'z')
                    || (c >= 'A' && c <= 'Z')) {
                // 字母, 数字
                len++;
            } else {
                if (Character.isLetter(c)) { // 中文
                    len += 2;
                } else { // 符号或控制字符
                    len++;
                }
            }
        }
        return len;
    }
   
    public static void main(String[] args){
        String str="hello,创建博客文章";
        int len=countWords(str);
        System.out.println(len);
    }
}

 

得到输出结果:18.其中中文每个字符相当于两个英文字符或标点

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
可以使用 SQL Server 中的 SUBSTRING 和 LEN 函数来实现。 假设你需要统计文本列名为 [文本],可以使用以下 SQL 语句: ```sql SELECT SUBSTRING([文本], (number-1)*4+1, 4) AS [子串], COUNT(*) AS [出现次数] FROM master..spt_values CROSS JOIN [语料匹配清单].dbo.[接触流水与文本清单] WHERE type = 'P' AND number <= LEN([文本])/4+1 GROUP BY SUBSTRING([文本], (number-1)*4+1, 4) ORDER BY [出现次数] DESC ``` 解释: 1. 使用 master..spt_values 表来生成一个数字序列,用于将文本分割成多个长度为 4 的子串。type = 'P' 表示只选择该表中的数字,而不是其他类型的信息。 2. 使用 CROSS JOIN 将数字序列与原表进行笛卡尔积,将每个数字应用到原表的每一行上。 3. 使用 SUBSTRING 函数提取原文本的子串,公式为 (number-1)*4+1 表示从第 (number-1)*4+1 个字符开始提取长度为 4 的子串。 4. 使用 COUNT 函数统计每个子串出现的次数,并按照出现次数倒序排序。 注意,该方法会将文本分割成多个长度为 4 的子串,并统计每个子串的出现次数。如果某个子串在原文本中出现多次,也会被多次计数。如果需要统计不同的子串的数量,可以使用 DISTINCT 关键字: ```sql SELECT DISTINCT SUBSTRING([文本], (number-1)*4+1, 4) AS [子串] FROM master..spt_values CROSS JOIN [语料匹配清单].dbo.[接触流水与文本清单] WHERE type = 'P' AND number <= LEN([文本])/4+1 ``` 这样就可以得到所有不同的子串列表。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值