自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(11)
  • 收藏
  • 关注

原创 [C#]文本相似度检测(4) 初步成果

<br />文本相似度检测的程序算是编出了一个初步的原型,这是我第一次编出了一个算是能用的程序。不过这也仅仅是刚编出来,数了一下,一共700多行代码,呵呵,还是蛮有成就感的~<br /> <br />以后的工作:<br />1,多线程依然没有实现,但是所有能够进行多线程的部分都留出了接口,改起来应该不困难<br />2,构建实验样本,这一点应该有一定难度。没有实验就得不到好的参数,所以怎么能够批量的构建样本是个问题。<br /> <br />没有看到哪能上传程序,图片也传不上去,那只能这样了先~~~呵呵~~

2011-01-28 14:03:00 1650 4

转载 [C#][转载]StringBuilder类与 String类的区别

<br /><br />源地址:http://hi.baidu.com/huyinghuyu/blog/item/639a480e33d401c97bcbe180.html<br /> <br /> <br />String 对象是不可改变的。每次使用 System.String 类中的方法之一或进行运算时(如赋值、拼接等)时,都要在内存中创建一个新的字符串对象,这就需要为该新对象分配新的空间。而 StringBuilder 则不会。在需要对字符串执行重复修改的情况下,与创建新的 String 对象相关的系

2011-01-28 13:48:00 552

原创 [C#]MD5,Tooltip,几种类型的范围

<br />1,MD5的两种方法<br />(1)在windows窗体下:<br />using System.Security.Cryptography;<br /> <br /><br />MD5 MyMd5 = MD5.Create();<br />byte[] temp = MyMd5.ComputeHash(Encoding.UTF8.GetBytes(TransString));<br /> for (int i = 0; i < temp.Length; i++)<br /> {<br /> 

2011-01-28 13:45:00 796

转载 [C#] StringBuilder 与程序的输入输出的代码段

(1) StringBuilder stringBuilder = new StringBuilder();            for (int i = 0; i             {                stringBuilder.Append(i + " ");            }            String[] stringArray = stringBuilder.ToString().Split(' ');            int[] intArray =

2011-01-24 18:05:00 1467

原创 [C#]K均值聚类

写完了怕丢了,放在这里。不过写的不是很好,没有进行过优化~~using System;using System.Collections.Generic;using System.Linq;using System.Text;using System.Collections;namespace Similarity{    class myClusterFun    {        public static int[][] CluEntran(int[][] HashArr, int NumberOfCe

2011-01-24 18:01:00 2683

原创 [C#]文本相似度识别(3)

做了一天好虚呀。目前实现了两步,都对两篇文章而言的对文章的每一段进行进行相似度识别,初步判断相似的段落;对可疑的相似段落,进一步识别哪些句子雷同,并输出结果。目前还是单线程的,而且算法优化做的比较少。遇到了一些麻烦:1,多线程的传参问题,到目前为止依然没有解决,所以还是单线程的;2,关于引用类型问题,比如(1)我把每次的结果记录在一个in[2]里面,并把每个int[2]添加到一个Arraylist里int[2]的值随着循环而改变,但是由于int[]是引用类型,所以这样做就不可行了(2)输出的时候用到了par

2011-01-24 17:57:00 2592

转载 [C#][转载] .Net应该学什么怎么学(感觉适合新手,对了解整个.NET知识结构有帮助)

原链接:http://net.itcast.cn/ViewArticle-236.aspx.Net应该学什么怎么学(一)上篇《学了.Net做什么开发》中我讲到了目前.Net开发主要方向是Web开发,因此在本篇中我将主要讲解做Web开发要学哪些东西,怎么学,由于内容比较多,我将分几次发。下图是我推荐的学习内容和学习顺序(除了这里列出的内容,要走向高手之路肯定还有更多技术需要学习,我这里只是对于初学者列出的主干学习内容,并不是全部):    开发者口中的.Net全称是.Net Framework,在中国大陆,一

2011-01-21 23:17:00 2067

原创 [C#]文本相似度识别(2)

目前完成了K均值的聚类的程序发现了以下问题:1,速度太慢:当文本长度较长时,在读入文本、转码的时候,速度太慢;2,对于文献相似度识别应用在作业时,整篇的检测不是很恰当,因为作业本来就是高度相似的。有以下想法:1,MD5这个转码没有研究过,但认为是这个的速度太慢了,不适合整个文本的检验;2,考虑按句子比较,先对句子进行聚类,然后比较句子的相似度

2011-01-21 22:48:00 1546

原创 [C#]网络扒虫

这个其实不能算是完全意义上的网络扒虫,只是对某个社交网络进行扒取,然后得到邻接矩阵,以及相应的头像等信息。主要的步骤:1,扒取信息2,正则匹配正则表达式主要参考了:http://deerchao.net/tutorials/regex/regex.htm扒取信息中用的是 WebClient这个方法相对HttpRequest的HttpResponse更简洁一些。难点是克服网站的认证机制,用的是保存Cookies的方法。

2011-01-17 19:14:00 2742 2

原创 [C#]文本相似度检测(1)

任务: 完成一个反作弊的网络程序(或单机版的.exe),能够在多篇文本的作业中识别出最相似的若干对文本。进度:借助MD5,初步实现了两篇文档的相似度检验;完成K均值聚类的实现;目标:MD5的速度很慢,所以在完成原型的实现后,要进一步更新算法;实现聚类以及最后结果的输出;实现软件的.exe以及网络版。最近正在解决的是多线程的问题,想在文档录入以及转码过程中实现多线程关于thread,参考了:http://www.albahari.com/threading/感觉很不错~

2011-01-17 19:09:00 2449

原创 [js]学术搜索的背景更换

比较简单的一个任务,但是是我头一次接触网络编程。这个task的关键点就是要在所定义的Js函数外,定义变量,以记住当前的值在网页重新提交请求时不被刷新。此外还学习到一些简单的html的知识,比如text标签可以在鼠标滑过时显示出text的内容。图片费了好大劲,但是最后效果还是不太好,所以就换掉了。http://search.gucas.ac.cn

2011-01-17 18:18:00 520

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除