[C#]文本相似度识别(2)

最新推荐文章于 2022-04-22 17:20:43 发布

lhyan792

最新推荐文章于 2022-04-22 17:20:43 发布

阅读量1.5k

点赞数

文章标签： c# 作业

本文链接：https://blog.csdn.net/lhyan792/article/details/6157823

版权

目前完成了K均值的聚类的程序

发现了以下问题：

1，速度太慢：当文本长度较长时，在读入文本、转码的时候，速度太慢；

2，对于文献相似度识别应用在作业时，整篇的检测不是很恰当，因为作业本来就是高度相似的。

有以下想法：

1，MD5这个转码没有研究过，但认为是这个的速度太慢了，不适合整个文本的检验；

2，考虑按句子比较，先对句子进行聚类，然后比较句子的相似度

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

lhyan792

关注关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

python jieba 文本相似度_文本相似度分析（基于jieba和gensim）

weixin_39648430的博客

12-17

2523

##基础概念本文在进行文本相似度分析过程分为以下几个部分进行，文本分词语料库制作算法训练结果预测分析过程主要用两个包来实现jieba，gensimjieba:主要实现分词过程gensim：进行语料库制作和算法训练##结巴(jieba)分词在自然语言处理领域中，分词和提取关键词都是对文本处理时通常要进行的步骤。用Python语言对英文文本进行预处理时可选择NLTK库，中文文本预处理可选择jieba库...

用C#实现字符串相似度算法（编辑距离算法 Levenshtein Distance）

程序员的生活的博客

10-13

5188

在搞验证码识别的时候需要比较字符代码的相似度用到“编辑距离算法”，关于原理和C#实现做个记录。据百度百科介绍：编辑距离，又称Levenshtein距离（也叫做Edit Distance），是指两个字串之间，由一个转成另一个所需的最少编辑操作次数，如果它们的距离越大，说明它们越是不同。许可的编辑操作包括将一个字符替换成另一个字符，插入一个字符，删除一个字符。　　例如将kitten一字转成

参与评论您还未登录，请先登录后发表或查看评论

基于C#的文本相似度检测

04-04

这是一个基于C#的反作弊系统，基于VSM空间向量模型，能对doc和txt文件进行相似度的检测，在VS2005和SQL Server 2005上实现

文本相似度计算（TF-IDF）C#

04-04

namespace ServiceRanking { /// <summary> /// Summary description for TF_IDFLib. /// </summary> public class TFIDFMeasure { private string[] _docs; private string[][] _ngramDoc; private int _numDocs=0; private int _numTerms=0; private ArrayList _terms; private int[][] _termFreq; private float[][] _termWeight; private int[] _maxTermFreq; private int[] _docFreq; public class TermVector { public static float ComputeCosineSimilarity(float[] vector1, float[] vector2) { if (vector1.Length != vector2.Length) throw new Exception("DIFER LENGTH"); float denom=(VectorLength(vector1) * VectorLength(vector2)); if (denom == 0F) return 0F; else return (InnerProduct(vector1, vector2) / denom); } public static float InnerProduct(float[] vector1, float[] vector2) { if (vector1.Length != vector2.Length) throw new Exception("DIFFER LENGTH ARE NOT ALLOWED"); float result=0F; for (int i=0; i < vector1.Length; i++) result += vector1[i] * vector2[i]; return result; } public static float VectorLength(float[] vector) { float sum=0.0F; for (int i=0; i < vector.Length; i++) sum=sum + (vector[i] * vector[i]); return (float)Math.Sqrt(sum); } } private IDictionary _wordsIndex=new Hashtable() ; public TFIDFMeasure(string[] documents) { _docs=documents; _numDocs=documents.Length ; MyInit(); } private void GeneratNgramText() { } private ArrayList GenerateTerms(string[] docs) { ArrayList uniques=new ArrayList() ; _ngramDoc=new string[_numDocs][] ; for (int i=0; i < docs.Length ; i++) { Tokeniser tokenizer=new Tokeniser() ; string[] words=tokenizer.Partition(docs[i]); for (int j=0; j < words.Length ; j++) if (!uniques.Contains(words[j]) ) uniques.Add(words[j]) ; } return uniques; } private static object

『.NET Tools』C#/.NET 计算文本相似度

老陈聊架构

06-04

3499

在.NET中快速计算文本间的相似度算法实现

[C#]文本相似度检测(1)

lhyan792的专栏

01-17

2449

任务：完成一个反作弊的网络程序（或单机版的.exe），能够在多篇文本的作业中识别出最相似的若干对文本。进度：借助MD5，初步实现了两篇文档的相似度检验；完成K均值聚类的实现；目标：MD5的速度很慢，所以在完成原型的实现后，要进一步更新算法；实现聚类以及最后结果的输出；实现软件的.exe以及网络版。最近正在解决的是多线程的问题，想在文档录入以及转码过程中实现多线程关于thread，参考了：http://www.albahari.com/threading/感觉很不错~

基于C#的文本相似度检测源代码+说明

10-09

基于C#的文本相似度检测源代码，附带算法解析和使用说明

c#图像相似度比较demo

08-10

项目包含两个文件："test.txt"可能是用于存储测试数据或结果的文本文件，例如测试图片的名称、相似度得分等；"MatchImage"可能是实现图像比较功能的C#类文件，其中包含了灰度化、直方图计算、相似度度量等关键算法。...

Levenshtein.rar 文本相似度比较

04-16

这里我们关注的是“Levenshtein.rar”压缩包，它包含了一个使用C#实现的文本相似度比较工具。这个工具利用了Levenshtein距离算法，这是一种衡量两个字符串差异程度的方法。 Levenshtein距离算法，又称为编辑距离，...

C#计算2个字符串的相似度

08-30

* 文本相似度分析 * 验证码识别 * 文本分类 * 信息检索 5. 优缺点分析 C#计算2个字符串的相似度的优点是： * 能够准确地计算两个字符串之间的相似度 * 可以应用于多种场景缺点是： * 计算时间较长 * 需要大量...

文本相似度检测工具1.0版

01-30

用VS2005，C#利用VSM向量空间算法实现的包括.txt,.doc,.html,.htm文本的相似度检测

c#图像相似度对比

06-24

通过网上的例子，加上用灰度直方图方法计算相似度的算法，写了一个例子，经测试效果达到百分之95准确率

LCS计算文章相似度--C#源程序

08-14

本程序是为了熟悉lcs算法，通过使用lcs算法来计算两篇文章的相似度

openCV纹理图像特征提取，比较两幅图像的相似度

03-13

利用opencV和C语言编写，利用纹理特征比较两幅图像的相似度

[C#]文本相似度识别(3)

lhyan792的专栏

01-24

2593

做了一天好虚呀。目前实现了两步，都对两篇文章而言的对文章的每一段进行进行相似度识别，初步判断相似的段落；对可疑的相似段落，进一步识别哪些句子雷同，并输出结果。目前还是单线程的，而且算法优化做的比较少。遇到了一些麻烦：1，多线程的传参问题，到目前为止依然没有解决，所以还是单线程的；2，关于引用类型问题，比如（1）我把每次的结果记录在一个in[2]里面，并把每个int[2]添加到一个Arraylist里int[2]的值随着循环而改变，但是由于int[]是引用类型，所以这样做就不可行了（2）输出的时候用到了par

C#计算两字符串相似度

张赐荣的技术博客

02-18

2749

C#计算两字符串相似度 动态规划相似度算法经常被用来确定两个字符串文本是否相似，特别是在模糊匹配搜索中。下面封装的C#.NET函数采用动态规划法比较两个短文本之间的相似度,返回百分比(精确道小数点两位)。作者: 张赐荣 public static double ComputeTextSame (string textX, string textY, bool isCase = false) // 计算文本相似度函数(适用于短文本) { if (textX.Length <= 0 || tex

04-22

2688

最近在我们的铺侦探(买铺租铺就上铺侦探)项目中,为了防止经纪人发布铺源的时候抄袭其他经纪人的铺源介绍，所以我们准备根据内容的相似度进行初步的防抄袭判断。话不多说，懒得打字，下面直接上干货：直接在VS的Nuget管理器中搜索：F23.StringSimilarity安装。GitHub传送门,里面有详细的介绍，并且也在不断更新。该库目前实现了14种算法，根据自己的需求选取合适自己业务的算法，每一种算法都有自己的优缺点，建议把每一种算法大致弄明白，方便自己选择使用哪种,可以根据该插件中...

C#编程实现TF-IDF文本相似度计算

"本文将介绍如何使用C#编程语言实现TF-IDF算法，该算法常用于文本相似度计算。TF-IDF（Term Frequency-Inverse Document Frequency）是一种在信息检索和文本挖掘领域常用的统计方法，用于评估一个词在文档中的重要性...