自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(54)
  • 资源 (4)
  • 收藏
  • 关注

原创 JAVA中替换一些特殊字符的方法

 replace和replaceAll的区别: replace 采用的是字符串原有的意思来替换,而 replaceAll 则是按照正则表达式的字符串来替换,正则表达式中有 15 个元字符,是有特殊意义的,使用时需要转义,这 15 个字符分别是: (    [     {    /    ^    -    $     ¦    }    ]    )    ?    *    +    ....

2012-11-27 10:38:57 440

原创 wordpress博客文章转载抄袭追踪——wordpress博客插件

在你的网站或者博客文章内容中添加此标识图案,即警告未经许可的剽窃者,你可以很轻松的通过CopyCheck服务检测到他们的转载抄袭,维护你的文字著作权。添加版权申明图案方法:copycheck提供WordPress站点支持插件,直接点击插件下载安装即可,具体步骤如下:     将下载后的压缩包解压,得到一个名为copycheck文件夹(包括一个.php文件及一个.txt文件),将该文...

2012-01-28 13:04:14 267

原创 知网论文检测修改高招

本文揭示了知网反抄袭检测系统的算法,如何判定论文是抄袭,以及如何修改来通过的秘籍。发出来造福大家。现在高校对于硕士和博士论文采用的检测系统,是由知网开发的。但该软件的具体算法,判定标准,以前一直不清楚,先在了然。首先分享一个论文检测系统:www.copycheck.com.cn 1、对格式的要求    知网学位论文检测为整篇上传,格式对检测结果可能会造成影响,需要将最终交...

2011-12-13 22:19:27 207

原创 论文检测躲避高招

 近来很多学校出台了一个令人不爽的规定啊,所有硕士论文必须通过知网反抄袭检测系统后才能答辩.怨声载道,民不聊生,现在有的学校在本科生中也会随机抽一些同学进行查重,弄得大家心里不爽。看到大家一个个郁闷的样子。特将自己珍藏的反查重对策加以总结,以解各位同学烦恼喔首先分享一个专业论文检测系统:www.copycheck.com.cn上策:外文文献翻译法  实施方法:查阅研究领域外文文献,...

2011-12-13 22:01:08 171

原创 想学习数据挖掘,但是应该从哪里获取教程?

正统教材:  主要是下面这两本(第一本好些,虽然第二本好像国内用的比较多): Pang-Ning Tan, Michael Steinbach and Vipin Kumar, Introduction to Data Mining.Jiawei Han and Micheline Kamber, Data Mining: Concepts and Techniques.前沿教材: ...

2011-11-05 17:51:25 153

原创 Linux crontab 命令格式与详细例子

基本格式 :*  *  *  *  *  command分 时 日 月 周 命令第1列表示分钟1~59 每分钟用*或者 */1表示第2列表示小时1~23(0表示0点)第3列表示日期1~31第4列表示月份1~12第5列标识号星期0~6(0表示星期天)第6列要运行的命令crontab文件的一些例子:30 21 * * * /usr/local...

2011-10-24 18:49:42 93

原创 linux下网络流量监控统计

  最近在做虚拟化迁入评估,其中很重要的一项就是流量的问题。现在部署一个工具和脚本用来统计服务器的网络流量。          linux下监控流量的工具有很多,比如ifstat、iftop等。          个人还是喜欢ifstat,因为它统计起来比较容易。          先安装ifstat。          还是老步骤,先下载ifstat-1.1.tar.gz,然...

2011-10-24 16:35:05 122

原创 linux常用的监控工具 <转>

1、CACTI 工具,主要用于监控服务器网卡流量,系统硬件状态等,主要是对SNMP协议熟悉,而且会PERL与XML时候这个工具非常强大。默认就只有监控网卡流量、和一些硬盘空间的模板。还要配合RRDTOOL一起使用。2、NAGIOS 工具,主要用于监控服务器系统各个进程的的状态以及使用内存CPU的情况,不需要自己写脚本,就能够运行。但是不能够监控网卡流量。如果出现情况可以给我发邮件,很及...

2011-10-24 16:33:51 140

原创 使用mysql的mysqldump实现自动备份

使用mysql数据库的mysqldump工具,可以实现数据库的备份功能,如果在linux系统中配置好crontabs,就可以实现自动备份!#!/bin/bash##配置原数据库连接信息,即正在使用需要备份数据库机器。SOURCE_USER=-uroot##如果就是在本机ip,即SOURCE_HOST=-h127.0.0.1SOURCE_HOST=-h10.10.10.12S...

2011-09-28 18:43:23 74

原创 系统运维需求

1)      200台服务器平台硬件和软件维护经验,熟悉WINDOWS和LINUX系统和网络管理以及各种服务(Ftp、Squid、Dns、Apache、Tomcat、Jboss、Samba、Nfs、Sendmail、Postfix、Rsync、Sersync、Helix、Openvpn、Iptables等)以及linux操作系统的优化和各项服务(apache、nginx、tomcat,resin...

2011-06-13 13:35:42 678

原创 libeven、memcached、libmemcache安装

前端时间玩了一下memcached,由于工作关系得过一段时间在玩它。哎,工作就是这样,老变!    libeven    memcached的使用需要libeven的支持,我们得先装上libeven。    官方网站:http://www.monkey.org/~provos/libevent/    下载地址:http://www.monkey.org/~provos/libeven...

2011-06-11 21:01:54 118

原创 Redis千万级的数据量的性能测试

从图中可以猜测到还会有Redis 2.2.1 的测试,相同的测试环境,1K的数据量,使用ServiceStack.Redis客户端进行如下测试:  1) Set操作  2) Get操作  3) Del操作  每一套测试分别使用三个配置进行测试:  1) 绿色线条的是开启Dump方式的持久化,5分钟持久化一次  2) 蓝色线条是开启AOF方式的持久化,每秒写入磁盘一次...

2011-06-11 20:15:27 1172

原创 基于向量空间模型的文本聚类算法

转自:http://edu.codepub.com/2009/0910/15270.php 1 文本聚类研究现状 Internet 已经发展为当今世界上最大的信息库和全球范围内传播信息最主要的渠道。随着 Internet 的大规模普及和企业信息化程度的提高,各种资源呈爆炸式增长。在中国互联网络信息中心 (CNNIC)2007 年 1 月最新公布的中国互联网络发展状况统计报告中显示, 70.2% 的...

2011-06-11 13:23:05 184

原创 Software Tools for NLP

Software ArchiveCMU Artificial Intelligence RepositoryResources Available Through CRLSIL Computing ResourcesLinguistics Tools at the University of Vaasa in FinlandLeeds University, Na...

2011-06-10 23:59:53 289

原创 NLP Tools(自然语言处理工具)

MaxentMature Java package for training and using maximum entropy models.OpenNLP CCG LibraryA collection of natural language processing components and tools which provide suppo...

2011-06-10 23:58:46 729

原创 自然语言处理及计算语言学相关术语中英对译表

machine dictionary 机器词典 machine language 机器语言 machine learning 机器学习 machine translation 机器翻译 machine-readable dictionary (MRD) 机读辞典 Macrolinguistics 宏观语言学 Markov chart 马可夫图 Mathematical Linguistics ...

2011-06-10 23:43:08 1090

原创 防抄袭软件防抄袭系统反抄袭系统-推荐

今日特别推荐一个中文的防抄袭软件反抄袭系统copycheck-拷克,本防抄袭软件效果不错几乎实时检测。

2010-03-04 19:17:01 399

HttpClient超时区别

HttpClient 4 设置超时httpclient 超时有时httpclient的时候,需要等待N长时间,可能此时你决定放弃或者重试。实现上非常简单 添加一个参数即可httpClient.getParams().setIntParameter("http.socket.timeout",3000);这里的超时单位是毫秒。 这里的http.socket.timeout...

2010-02-24 00:27:48 81

原创 javamail发送邮件的简单实例

转自:http://www.blogjava.net/wangfun/archive/2009/04/15/265748.htmljavamail发送邮件确实是一个比较麻烦的问题。为了以后使用方便,自己写了段代码,打成jar包,以方便以后使用。呵呵以下三段代码是我的全部代码,朋友们如果想用,直接复制即可。第一个类:MailSenderInfo.javapackage com.ut...

2010-02-23 09:31:33 81

原创 Nutch SegmentMerger 说明

This tool takes several segments and merges their data together. Only the latest versions of data is retained. Optionally, you can apply current URLFilters to remove prohibited URL-s. ...

2010-01-15 15:44:45 82

原创 Nutch SegmentMerger 说明

This tool takes several segments and merges their data together. Only the latest versions of data is retained. Optionally, you can apply current URLFilters to remove prohibited URL-s. ...

2010-01-15 15:43:42 70

免费抄袭检测的网站汇总

英文抄袭检测的网站: http://www.mydropbox.com/ 中文的反抄袭检测系统:http://www.copycheck.com.cn

2009-12-14 23:56:01 465

原创 HTTP缓存ETAG和Last-Modified

基础知识        1) 什么是”Last-Modified”?         在浏览器第一次请求某一个URL时,服务器端的返回状态会是200,内容是你请求的资源,同时有一个Last-Modified的属性标记此文件在服务期端最后被修改的时间,格式类似这样:         Last-Modified: Fri, 12 May 2006 18:53:33 GMT       ...

2009-12-08 17:36:22 274

原创 Java多线程sleep(),join(),interrupt(),wait(),notify()

关于Java多线程知识可以看看《Thinking in Java 》中的多线程部分和《Java网络编程》中第5章多线程的部分以下是参考&lt;&lt;Java多线程模式&gt;&gt;的 1. sleep() &amp; interrupt()     线程A正在使用sleep()暂停着: Thread.sleep(100000);     如果要取消他的等待状态,可以在正在执行的...

2009-12-08 15:47:52 66

转载 浅入浅出nutch 0.8使用指南4windows

版权所有:(xiaodaoxiaodao)蓝小刀    xiao

2009-12-03 17:18:00 507

原创 Div+CSS规则整理

 一、           善用css缩写规则    /*注意上、右、下、左的书写顺序*/1.      关于边距(4边):1px 2px 3px 4px (上、右、下、左)1px 2px 3px    (省略的左等于右)1px 2px         (省略的上等于

2009-11-20 11:03:00 653

拷克在线反抄袭检测系统

网络文章论文反抄袭工具http://www.copycheck.com.cn对文章或论文中的句子进行检索,分析文章或论文中每个句子的原创性,若非原创,给出抄袭的可能程度。Copycheck不但可用来分析文章抄袭的程度,而且可用来检测自己的博客文章被别人复制、被别人疯狂传播的程度,帮你保护你博客的版权。请将文章或论文粘贴到下面的输入框中,再单击开始对比按钮,即开始检测文中句子...

2009-10-26 00:13:39 267

原创 数据挖掘研究内容和本质(转)

 随着DMKD研究逐步走向深入,数据挖掘和知识发现的研究已经形成了三根强大的技术支柱:数据库、人工智能和 数理统计。因此,KDD大会程序委员会曾经由这三个学科的权威人物同时来任主席。目前DMKD的主要研究内容包括基础理论、发现算法、数据仓库、可视化技 术、定性定量互换模型、知识表示方法、发现知识的维护和再利用、半结构化和非结...

2009-10-23 18:10:30 486

转载 Swarm——分布式计算的新方法

P2P匿名代理软件Freenet的作者Ian Clarke正在开发一个新的开源项目Swarm。 Swarm是一个Web应用程序开发框架,它允许程序分布在多台计算机,从某种程度上让程序对程序员完全透明。Swarm将会观察程序的执行,并计算出如何在计算机之间分配计算量以达到效率最大化。Swarm采用LGPL许可证,用Scala 2.8语言实现。 目前还处于早

2009-10-12 13:09:00 546

转载 ICEpdf 3.1发布,开源的Java PDF引擎

ICEpdf 3.1发布了!ICEpdf 是一种开源,轻量级的pdf 引擎,用于展示/查看PDF文档,转换和抽取PDF文档的内容,还可以集成到Java桌面应用程序或Web服务器中使用。 ICEpdf的API采用100%纯Java编写,快速高效,使用简单。 ICEpdf的优势:与java客户端无缝整合,通过配置完全控制功能和用户接口;易于开发和使用

2009-10-12 13:07:00 906

转载 快速获得网站反向连接的一个方法

去年下半年的时候,我曾写过一篇文章叫作,《英文网站优化,为你的博客获得免费的半原创文章》。其实,这些半原创文章是通过Article Marketing Automation 系统自动获得的。当时,Article Marketing Automation这个服务刚刚开始。为了鼓励更多的博客加入他们的Article Marketing网络系统,他们搞了一个看谁可以加入最多博客的竞赛。那篇文

2009-09-24 17:08:00 767 1

转载 Using Hadoop IPC/RPC for distributed applications

在分布式应用程序中使用Hadoop IPC/RPC原文地址:http://www.supermind.org/blog/520/using-hadoop-ipcrpc-for-distributed-applications本文来自于:http://gpcuster.cnblogs.com 译文:关于Hadoop IPC我们一起来了解Hadoop IPC,这

2009-09-24 16:19:00 484

网络原创文章版权维护的辅助好工具copycheck抄袭检测软件

在自己博客、网站中发布的原创文章很有可能会被其他人抄袭,甚至一点修改都没有。如果你对版权非常敏感,或是担心大量的被转载文章会影响到自己的利益。你就得花些时间检查一下网站中的原创文章是否被别人抄袭啦。在搜索引擎中搜索文章中独有的短语就能检查是否有侵权现象。如果其他人非法复制了您的原创内容,应该能在搜索结果中看到。不过这个方法非常消耗时间,如果网站中有大量的文章就更麻烦了。呵呵,还好这...

2009-09-17 17:55:11 511

转载 29款英文SEO优化工具介绍

本文囊括29款SEO工具,4大种类。包括SEO工具,关键词工具,内容管理工具,图片搜索工具,PR查询工具,分析工具,社交媒体工具,在线采集工具,外链建设工具,统计工具,竞争性研究工具,点击付费广告(PPC)工具等相关工具和专业优化工具。如果你在寻找提升SEO效果工具,你找对了地方。  一、搜索引擎优化(SEO)助手  1、谷歌快讯  可以用谷歌快讯监视竞争对手和某些搜索字词。下

2009-09-16 10:54:00 1739

转载 用动态规划算法对最大子串问题的java实现

http://www.blogjava.net/heack/archive/2009/09/15/295080.html 最大字串问题描述大概就是给定2个字符串,找出他们两个共有的最长字符串。比如一个是"tabcfg"另外一个"abckj"那么最大子串就是"abc".动态规划算法最重要的就是分解问题,找出递归。说一下我的思考思路,首先拿到2个字符串,如何找到最长子串呢?1.假设他们

2009-09-15 15:21:00 808

转载 java URLEncoder 中特殊处理

URLEncoder类:用于HTML的form中数据编码的类。这个类包含将字符串转换为application/x-www-form-urlencoded MIME 格式的静态方法.如果想了解HTML的编码细则,请参考HTML规范。编码规则如下:字符"a"-"z","A"-"Z","0"-"9",".","-","*",和"_" 都不被编码,维持原值,空格" "被转换为加

2009-08-31 15:39:00 1013

转载 教你文本聚类

摘要:文本聚类是搜索引擎和语义web的基本技术,这次本蛙和大家一起学习一下简单的文本聚类算法,可能不能直接用于实际应用中,但对于想学搜索技术的初学者还是有一定入门作用的。这里会用到TF/IDF权重,用余弦夹角计算文本相似度,用方差计算两个数据间欧式距离,用k-means进行数据聚类等数学和统计知识。关于这些概念可以去google,或者参考文本后的参考链接。思路:计算两篇文档的相

2009-08-23 18:32:00 1243

转载 聚类基本数学模型

聚类方法是一类用途非常广泛的算法,聚类包含很多各式各样的算法。所有这些算法都有它的基本数学模型。本文就简单介绍一下聚类的基本数学模型。了解了基本数学模型就了解了聚类最本质的原理。无论是学习算法还是自己开发新的算法,学习基本数学模型都是很有帮助的。本文的目的一方面是介绍数学模型,另一方面也算是自己学习内容的一个记录吧。   假设X={x1,x2,…,xn}是待分析的对象全

2009-08-23 18:31:00 1121

转载 基于关联分析的数据挖掘在CRM中的应用

一、引言   CRM(客户关系管理)是指企业为了获取最大经济效益,运用现代科学技术对公司与客户之间的关系进行有效管理的新模式.它包括市场调查、产品销售、客户服务和管理决策等一系列商业流程。随着客户数量的大量积累,客户信息的日益复杂,仅限于营销流程的管理已很难满足企业进一步发展的需要。另外,激烈竞争的市场环境,迫使企业必须立足于客户的个性需求,提供相应的产品和服务,而客户的个性特

2009-08-21 17:15:00 1413 1

转载 Mutual Information 互信息的应用

MI使用如下公式计算某个特征项t和类别c之间的相关性。其中,A为t和c同时出现的次数;B为t出现而c没有出现的次数;C为c出现而t没有出现的次数。N为所有文档数。如果t和c不相关,则I(t,c)值为0。如果有m个类,于是对于每个t

2009-08-20 16:40:00 2089

Hadoop学习笔记

Hadoop学习笔记,Hadoop入门,Hadoop教程,Hadoop使用,Hadoop学习笔记,Hadoop入门,Hadoop教程,Hadoop使用,

2010-11-12

轻松配置linux Tomcat集群

tomcat集群配置linux,tomcat集群配置linuxtomcat集群配置linuxtomcat集群配置linux

2010-11-12

Flex入门经典教程

flex非常好的入门经典教程特别适合初学者。flex非常好的入门经典教程特别适合初学者

2009-04-21

从零开始-JSP动态网页制作基础培训教程

从零开始-JSP动态网页制作基础培训教程,从零开始-JSP动态网页制作基础培训教程

2008-04-13

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除