smartsearch-CSDN博客

转载非常不错的编程技术教程

下面是一些非常不错的编程教程，当然，全是英文版的。不过因为是新手教程，所以非常容易阅读，可以在学习技术的同时加强一下自己的英语阅读能力。 如果你是一个新手，建议你把本页设为你的收藏夹。 C Introduction to C Programming C Optimization Tutorial Compiling C and C++ Programs on UNIX Systems- gcc/g++ Building and U

2011-05-25 23:58:00 325

转载网站架构演变体系

一篇好文章，引一下。在这篇文章中将阐述一个普通的网站发展成大型网站过程中的一种较为典型的架构演变历程和所需掌握的知识体系： 架构演变第一步：物理分离webserver和数据库 最开始，由于某些想法，于是在互联网上搭建了一个网站，这个时候甚至有可能主机都是租借的，但由于这篇文章我们只关注架构的演变历程，因此就假设这个时候已经是托管了一台主机，并且有一定的带宽了，这个时候由于网站具备了一定的特色，吸引了部分人访问，逐渐你发现系统的压力越来越高，响应速度越来越慢，

2011-05-23 18:57:00 238

转载 TCP状态转移图学习总结

上两周无意中讨论起这个话题，发现andy同学对此甚为熟悉，于是叫他给大家分享了一下，在这里做一个沉淀。这是网络编程的基础，tcp的状态转移图说到底就是一个状态机的不同状态之间的转换关系以及触发这些状态需要的条件，一共存在11个状态，我们来逐一分析： 1.CLOSED：起始点，在超时或者连接关闭时候进入此状态。 2.LISTEN：svr端在等待连接过来时候的状态，svr端为此要调用socket， bind,listen函数，就能进入此状态。此称为应用程序被动打开（等待客户端来连接）。 3.SYN_SENT:

2011-05-23 11:28:00 243

转载理解cookie和session机制

cookie和session机制之间的区别与联系具体来说cookie机制采用的是在客户端保持状态的方案。它是在用户端的会话状态的存贮机制，他需要用户打开客户端的cookie支持。cookie的作用就是为了解决HTTP协议无状态的缺陷所作的努力. 而session机制采用的是一种在客户端与服务器之间保持状态的解决方案。同时我们也看到，由于采用服务器端保持状态的方案在客户端也需要保存一个标识，所以session机制可能需要借助于cookie机制来达到保存标识的目的。而session提供了方便管理全局

2011-05-23 10:56:00 279

转载高性能服务器开发的一些好文章

高性能服务器必须考虑的4个方面： 1 数据拷贝 2 内存管理 3 进程/线程上下文切换 4 锁争用 说明：以下文章中会包含一些研究服务器性能的链接，这些链接也是非常重要的文档，本文不再列出，查看下面的文章内容时，可点击文章里面的链接访问。 影响服务器性能的TCP选项：TCP_CORK,TCP_NODELAY http://bbs.net130.com/showthread.php?t=128111<br

2011-05-22 22:03:00 1370

转载 lucene3 中文IKAnalyzer分词例子

lucene3 中文IKAnalyzer分词例子 文章分类:JavaEye 关键字: ucene3 中文ikanalyzer import java.io.IOException;import java.io.StringReader;import java.util.Iterator;import org.apache.lucene.analysis.Analyzer;import org.apache.lucene.analysis.TokenSt

2011-05-16 00:02:00 376

转载计算机工程专业，如何找paper?

学了几年的Computer Engineering，虽然学无所成，但是对于怎么找到专业相关的paper（尤其是电子版）还是有一点心得。今天特总结一下，供后来人参考。本文应该也普遍适用于Computer Science。 1. 搜索引擎，这个其实是最简单有效的方法了。 推荐使用: Google Scholar Citeseer DBLP Google Scholar对每一篇paper一般能返回若干个结果，可以点开group看，默认结果通常

2011-05-15 16:29:00 390 1

转载在lucene中使用ictclas算法实现对中文分词索引

在lucene中使用ictclas算法 分词研究2010-03-29 16:38:51阅读132评论0 字号：大中小订阅给Lucene加入性能更好的中文分词 Lucene本身的StandardAnalyzer提供了中文分词接口,不过其采用的为1-gram. 这种分词方法虽然不会损失任何索引信息,但是造成的索引垃圾太多,用户得到的查询结果中垃圾也是很多. 经过认真研究了Lucene的Analysis包,我写了一个TjuChineseAnalyzer,效果不错. <br /

2011-05-15 15:22:00 818

转载 SVM入门（十）将SVM用于多类分类

从 SVM的那几张图可以看出来，SVM是一种典型的两类分类器，即它只回答属于正类还是负类的问题。而现实中要解决的问题，往往是多类的问题（少部分例外，例如垃圾邮件过滤，就只需要确定“是”还是“不是”垃圾邮件），比如文本分类，比如数字识别。如何由两类分类器得到多类分类器，就是一个值得研究的问题。 还以文本分类为例，现成的方法有很多，其中一种一劳永逸的方法，就是真的一次性考虑所有样本，并求解一个多目标函数的优化问题，一次性得到多个分类面，就像下图这样： 多个超平面把

2011-05-15 15:12:00 260

转载 SVM入门（九）松弛变量（续）

接下来要说的东西其实不是松弛变量本身，但由于是为了使用松弛变量才引入的，因此放在这里也算合适，那就是惩罚因子C。回头看一眼引入了松弛变量以后的优化问题： 注意其中C的位置，也可以回想一下C所起的作用（表征你有多么重视离群点，C越大越重视，越不想丢掉它们）。这个式子是以前做SVM的人写的，大家也就这么用，但没有任何规定说必须对所有的松弛变量都使用同一个惩罚因子，我们完全可以给每一个离群点都使用不同的C，这时就意味着你对每个样本的重视程度都不一样，有些样本丢了也就丢

2011-05-15 15:11:00 245

转载 SVM入门（八）松弛变量

现在我们已经把一个本来线性不可分的文本分类问题，通过映射到高维空间而变成了线性可分的。就像下图这样： 圆形和方形的点各有成千上万个（毕竟，这就是我们训练集中文档的数量嘛，当然很大了）。现在想象我们有另一个训练集，只比原先这个训练集多了一篇文章，映射到高维空间以后（当然，也使用了相同的核函数），也就多了一个样本点，但是这个样本的位置是这样的： 就是图中黄色那个点，它是方形的，因而它是负类的一个样本，这单独的一个样本，使得原本线性可分的问

2011-05-15 15:10:00 267

转载 SVM入门（七）为何需要核函数

生存？还是毁灭？——哈姆雷特 可分？还是不可分？——支持向量机 之前一直在讨论的线性分类器,器如其名（汗，这是什么说法啊），只能对线性可分的样本做处理。如果提供的样本线性不可分，结果很简单，线性分类器的求解程序会无限循环，永远也解不出来。这必然使得它的适用范围大大缩小，而它的很多优点我们实在不原意放弃，怎么办呢？是否有某种方法，让线性不可分的数据变得线性可分呢？ 有！其思想说来也简单，来用一个二维平面中的分类问题作例子，你一看就会明白。事先声明，下面这个例子是

2011-05-10 14:22:00 203

转载 SVM入门（六）线性分类器的求解——问题的转化，直观角度

让我再一次比较完整的重复一下我们要解决的问题：我们有属于两个类别的样本点（并不限定这些点在二维空间中）若干，如图， 圆形的样本点定为正样本（连带着，我们可以把正样本所属的类叫做正类），方形的点定为负例。我们想求得这样一个线性函数（在n维空间中的线性函数）： g(x)=wx+b 使得所有属于正类的点x+代入以后有g(x+)≥1，而所有属于负类的点x-代入后有g(x-)≤-1（之所以总跟1比较，无论正一还是负一，都是因为我们固定了间隔为1，注意间隔和几

2011-05-10 14:20:00 266

转载 SVM入门（五）线性分类器的求解——问题的描述Part2

从最一般的定义上说，一个求最小值的问题就是一个优化问题（也叫寻优问题，更文绉绉的叫法是规划——Programming），它同样由两部分组成，目标函数和约束条件，可以用下面的式子表示： （式1） 约束条件用函数c来表示，就是constrain的意思啦。你可以看出一共有p+q个约束条件，其中p个是不等式约束，q个等式约束。 关于这个式子可以这样来理解：式中的x是自变量，但不限定它的维数必须为1（视乎你解决的问题空间维数，对我们的文本分类来说，那可是成千上万啊）。要

2011-05-10 14:19:00 268

转载 SVM入门（四）线性分类器的求解——问题的描述Part1

上节说到我们有了一个线性分类函数，也有了判断解优劣的标准——即有了优化的目标，这个目标就是最大化几何间隔，但是看过一些关于SVM的论文的人一定记得什么优化的目标是要最小化||w||这样的说法，这是怎么回事呢？回头再看看我们对间隔和几何间隔的定义：间隔：δ=y(wx+b)=|g(x)| 几何间隔：可以看出δ=||w||δ几何。注意到几何间隔与||w||是成反比的，因此最大化几何间隔与最小化||w||完全是一回事。而我们常用的方法并不是固定||w||的大小而寻求最大几何间隔，而是固定间隔（例如固定为1），寻找

2011-05-10 14:18:00 283

转载（一、二、三）SVM的八股简介

支持向量机(Support Vector Machine)是Cortes和Vapnik于1995年首先提出的，它在解决小样本、非线性及高维模式识别中表现出许多特有的优势，并能够推广应用到函数拟合等其他机器学习问题中[10]。支持向量机方法是建立在统计学习理论的VC 维理论和结构风险最小原理基础上的，根据有限的样本信息在模型的复杂性（即对特定训练样本的学习精度，Accuracy）和学习能力（即无错误地识别任意样本的能力）之间寻求最佳折衷，以期获得最好的推广能力[14]（或称泛化能力）。以上是经常被有关SVM

2011-05-10 14:16:00 356

转载 Lucene：基于Java的全文检索引擎简介

Lucene：基于Java的全文检索引擎简介

2011-05-09 15:55:00 231

华工智能计算实验室评论挖掘团队的专栏