一个统计文章字数的算法,求改进

近日在做富文本编辑器时,希望将编辑器的字符统计功能改进成字数统计。

其中最重要的当然是解决如何统计中英文混合情况下的字数。

我的思路是:

1)先根据空白字符把文章分解为若干个段,分解得到的各段中的文本已不包含空白字符。

2)遍历对分解得到的各段,对每段 Si 进行如下处理,求该段的词数 Ci

  2.1)统计该段中连续非中文词(包括标点)出现的次数 Ei

     (例如对于 "abc好吗?abc很好。" 这个文本中,Ei = 2。)

  2.2)统计该段中中文字符(包括标点)的字数 Zi

     (例如对于 "abc好吗?abc很好。" 这个文本中,Zi = 6。)

  2.3)该段中的单词数即为 Ci = Ei+Zi

     (根据上面的例子,Ci = 8。)

3)整篇文章的单词数 Count = ∑Ci

 

在假设文章中仅出现英文字符和中文字符的情况下,划定 Unicode <= 0x00FF 的字符为英文字符,Unicode > 0x00FF 的字符为中文字符。

从而得到如下程序:

int  WordCount( string  value)
{
    var sec 
=  Regex.Split(value,  @" \s " );
    
int  count  =   0 ;
    
foreach  (var si  in  sec)
    {
        
int  ci  =  Regex.Matches(si,  @" [\u0000-\u00ff]+ " ).Count;
        
foreach  (var c  in  si)
            
if  (( int )c  >   0x00FF ) ci ++ ;
        count 
+=  ci;
    }
    
return  count;
}

 

 

附上测试程序 /Files/tracydj/WordCountPerformance.rar

如果你还有好的思路和方法,请和大家一起分享。

 

转载于:https://www.cnblogs.com/tracydj/archive/2010/10/20/1856548.html

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值