这个比较文本用到的主要是余弦定理比较文本相似度,具体原理右转某度,主要适用场景是在考试系统中的简答题概述,可根据权重自动打分,感觉实用性蛮广的。
先说下思路:
- 文本分词,中文于英文不同,规范的英文每个都有空格自动分词,中文则是连成长串,我们只有一一比对每个词出现的频率做简单的比较,在这里使用到了SCWS的一个分词api接口http://www.ftphp.com/scws/api.php(仅支持POST,因为要模拟Http请求,所以请求时间也是根据具体环境而定,所以可以自己手写一些字典,本地分词要来的快)。但是用此接口分词过程中,标点符号不会被去掉,所以需要自己手动写方法去掉标点。
- 获取两个文本的去重复并集
- 比较每个词出现的频率
- 根据余弦定理计算权重
下面是具体的代码段(请求是在网上找的,原链接找不到了。。)
class Program
{
static void Main(string[] args)
{
Console.Write(Sim("床前明月光,疑是地上霜", "床前明月光,疑是地上霜"));
}
public static double Sim(string txt1, strin