关闭

网页文本的排重算法介绍

转自:http://blog.csdn.net/marising/article/details/5886431 1.信息指纹算法 判断重复网页的思想:为每个网页计算出一组信息指纹(Fingerprint),若两个网页有一定数量相同的信息指纹,则认为这两个网页的内容重叠性很高,也就是说两个网页是内容复制的。 判断内容复制的方法中最关键的两点: 1、计算信息指纹(Fi...
阅读(2799) 评论(0)

Weka中使用LibSVM

Weka为3.6.6版本  1、下载http://www.cs.iastate.edu/~yasser/wlsvm/上的wlsvm.zip文件 2、 解压wlsvm.zip文件,将libsvm.jar和wlsvm.jar文件放到weka的安装目录下 3、修改runweka.ini文件中的cmd_default      原内容为:cmd_default=javaw -Dfile.encod...
阅读(1684) 评论(0)

马无夜草不肥:程序员做业余项目的重要性

原文地址:http://news.csdn.net/a/20111128/308194.html 编程是一种创造过程,业余项目允许程序员在没有截止日期或各种限制的条件下,以探索形式编程。业余项目之所以重要,有以下几个原因。 探索新技术 每天都会不断有新技术出现,而业余项目则是最佳的试验场。作为业余项目,你不必为bug或者性能问题担心,即使网站崩溃也没有问题,因为你不靠它来领薪...
阅读(992) 评论(0)

HTML 开源Java解析器

HTMLParser HTML Agility Pack jsoup NekoHTML JTidy HtmlCleaner cobra 解析和生成器 CyberNeko jScraper Jericho MozillaParser xhtmlrenderer 解析HTML和CSS HotSax TagSoup JoyHTML 解析HTML文本当中的链接和正文 Viet...
阅读(802) 评论(0)

linux 建立两台机器的信任关系

两台机器建立信任关系,从A机器拷贝东西到B,不需要录入访问密码 1、A机器生成SSH密匙 ssh-keygen -t rsa    Generating public/private rsa key pair.    Enter file in which to save the key (/root/.ssh/id_rsa):    输入保存文件    Enter passphrase...
阅读(830) 评论(0)

IT人如何找到自己的时间?

原文地址:http://zhichang.umiwi.com/2011/1117/48806.shtml 不知道你是不是有和我一样的体会,作为IT人员(软件开发、网络运营、项目管理等等),仿佛我们每天都有做不完的事,写代码、做维护、以及我们最讨厌的,无休止的会议。 但是,除了工作,我们也需要生活,也要关心粮食、关心电视,晚上检查一下不热的暖器,或者修一下卫生间不停滴水的水龙头。家人...
阅读(275) 评论(0)

C++虚函数表解析

C++中的虚函数的作用主要是实现了多态的机制。关于多态,简而言之就是用父类型别的指针指向其子类的实例,然后通过父类的指针调用实际子类的成员函数。这种技术可以让父类的指针有“多种形态”,这是一种泛型技术。所谓泛型技术,说白了就是试图使用不变的代码来实现可变的算法。比如:模板技术,R...
阅读(281) 评论(0)

nm命令中符号类型详解

原文地址:http://www.yanyufly.com/2011/03/21/nm%E5%91%BD%E4%BB%A4%E4%B8%AD%E7%AC%A6%E5%8F%B7%E7%B1%BB%E5%9E%8B%E8%AF%A6%E8%A7%A3/ nm命令介绍的很多,但大...
阅读(377) 评论(0)

C语言函数入栈顺序与可变参数函数

下面先摘录一些: ================================================ C/C++函数调用约定与函数名称修饰规则探讨 使用C/C++语言开发软件的程序员经常碰到这样的问题:有时候是程序编译没有 问题,但是链接的时候总是报告函数不存...
阅读(339) 评论(0)

用gcc编译静态库,动态库

用gcc编译静态库,动态库(zt) 假设当前目录下有这些源文件:[main.c    func.c    func.h],其中main.c要调用func.c中的函数。 【1】生成静态库: $ gcc -c func.c -o func.o $ ar rcs lib...
阅读(249) 评论(0)

extern及extern “C”用法

原文出处:http://blogold.chinaunix.net/u/29619/showart_230148.html extern是C/C++语言中表明函数和全局变量作用范围(可见性)的关键字创意产品网 . 它告诉编译器,其声明的函数和变量可以在本模块或其它模块...
阅读(269) 评论(0)

每个程序员都必须遵守的编程原则

原文地址:http://www.etcshell.com/news-view-1150.html 好的编程原则跟好的系统设计原则和技术实施原则有着密切的联系。下面的这些编程原则在过去的这些年里让我成为了一名优秀的程序员,我相信,这些原则对任何一个开发人员来说,都能让...
阅读(259) 评论(0)

让vim认识更多的编码

原文出处:http://www.cnblogs.com/soli/archive/2008/03/17/1109931.html 如果当前locale为utf-8,则用vim打开一个gb2312编码的文件,会显示为乱码。用gedit打开却正常显示,难道vim还不如ged...
阅读(283) 评论(0)

Rsync命令详解

原文出处:http://www.cublog.cn/u/22459/showart_2049134.html 在对rsync服务器配置结束以后,下一步就需要在客户端发出rsync命令来实现将服务器端的文件备份到客户端来。rsync是一个功能非常强大的工具,其命令也有很多功能...
阅读(354) 评论(0)

如何高效产生m个n范围内的不重复随机数(m<=n)

原文出处:http://blog.sina.com.cn/s/blog_57de62c00100ltak.html 如何产生不重复的随机数?最容易想到的方法,是逐个产生这些随机数,每产生一个,都跟前面的随机 数比较,如果重复,就重新产生。这是个很笨的方法,且比较次数呈...
阅读(2140) 评论(0)
49条 共4页1 2 3 4 下一页 尾页
    个人资料
    • 访问:72217次
    • 积分:916
    • 等级:
    • 排名:千里之外
    • 原创:21篇
    • 转载:28篇
    • 译文:0篇
    • 评论:0条
    文章分类