使用C#和正则表达式统计中文字符频率

本文链接：https://blog.csdn.net/w3cwxl/article/details/142488006

引言

在数据分析和文本处理中，统计特定字符或词汇的频率是一项常见任务。本文将介绍如何使用C#语言和正则表达式来统计一段文本中中文字符的频率。我们将通过一段关于中日关系的新闻报道作为示例，展示如何提取文本中的中文字符，并统计每个字符出现的次数。

准备工作

首先，确保你的开发环境支持C#。我们将使用.NET框架中的System.Text.RegularExpressions命名空间来处理正则表达式。

示例代码解析

// 示例文本，包含中日关系的新闻报道 
string str = "（观察者网讯）据日本共同社9月23日援引日本外交人士的说法称，...（省略部分文本）...中方要求日方彻查此事，承诺类似事件不再发生。"; 


// 创建一个字典来存储中文字符及其出现次数 
Dictionary<char, int> dic = new Dictionary<char, int>(); 


// 定义正则表达式模式，用于匹配中文字符（Unicode范围\u4e00-\u9fa5） 
string pattern = @"[\u4e00-\u9fa5]"; 


// 使用Regex.Matches方法查找所有匹配的中文字符 
MatchCollection matches = Regex.Matches(str, pattern); 


// 初始化一个空字符串，用于拼接所有匹配的中文字符 
string newstr = ""; 


// 遍历所有匹配项，并将它们添加到newstr中 
foreach (Match match in matches) 
{ 
newstr += match.Value; 
} 


// 遍历newstr中的每个字符，统计每个字符的出现次数 
foreach (var item in newstr) 
{ 
// 如果字典中已经包含该字符，则增加其计数；否则，添加该字符到字典中并设置计数为1 
dic[item] = dic.ContainsKey(item) ? dic[item] += 1 : 1; 
} 


// 将字典的键和值分别转换为数组，以便按值排序 
char[] Keys = dic.Keys.ToArray(); 
int[] Values = dic.Values.ToArray(); 


// 对值进行排序，并相应地调整键的顺序 
Array.Sort(Values, Keys); 


// 逆序遍历排序后的键和值，以输出出现次数最多的字符及其频率 
foreach (var item in Keys.Reverse()) 
{ 
Console.Write(item); 
Console.WriteLine(dic[item]); 
}

代码注释与说明

文本准备：首先，我们定义了一个包含中日关系新闻报道的字符串str。
字典初始化：我们创建了一个Dictionary<char, int>类型的字典dic，用于存储中文字符及其出现次数。
正则表达式：定义了一个正则表达式模式pattern，用于匹配Unicode范围\u4e00-\u9fa5内的所有中文字符。
字符提取：使用Regex.Matches方法查找文本中所有匹配的中文字符，并将它们拼接成一个新的字符串newstr。
频率统计：遍历newstr中的每个字符，使用字典dic统计每个字符的出现次数。
排序与输出：将字典的键和值分别转换为数组，按值进行排序，并逆序遍历排序后的键和值，以输出出现次数最多的字符及其频率。

结论

通过本示例，我们展示了如何使用C#和正则表达式来统计文本中中文字符的频率。这种方法在处理包含大量文本数据的项目时非常有用，特别是在需要分析文本内容或进行文本挖掘时。希望这篇文章对你有所帮助！