C# 比较两文本相似度

使用余弦定理来计算文本相似度,适用于考试系统自动评分。首先进行文本分词,通过SCWS API接口,然后去除标点符号。接着获取两文本的去重复并集,比较词频,最后应用余弦定理计算权重。
摘要由CSDN通过智能技术生成

这个比较文本用到的主要是余弦定理比较文本相似度,具体原理右转某度,主要适用场景是在考试系统中的简答题概述,可根据权重自动打分,感觉实用性蛮广的。

 

先说下思路:

  1. 文本分词,中文于英文不同,规范的英文每个都有空格自动分词,中文则是连成长串,我们只有一一比对每个词出现的频率做简单的比较,在这里使用到了SCWS的一个分词api接口http://www.ftphp.com/scws/api.php(仅支持POST,因为要模拟Http请求,所以请求时间也是根据具体环境而定,所以可以自己手写一些字典,本地分词要来的快)。但是用此接口分词过程中,标点符号不会被去掉,所以需要自己手动写方法去掉标点。
  2. 获取两个文本的去重复并集
  3. 比较每个词出现的频率
  4. 根据余弦定理计算权重

下面是具体的代码段(请求是在网上找的,原链接找不到了。。)

class Program
    {
        static void Main(string[] args)
        {
            Console.Write(Sim("床前明月光,疑是地上霜", "床前明月光,疑是地上霜"));
        }
        public static double Sim(string txt1, strin
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值