2013年10月_继续微笑lsj

原创 JSP中的requenst对象

JSP中的request对象request对象实现了HttpServletRequest接口，通过它可以获得用户的请求参数，获得Cookie，获得HTTP请求头，获得用户的IP地址等等。request对象的主要方法有： getParameter(String name) 获得客户端传送给服务器端的参数值，该参数一般由表单的name属性指定。 getParameterValues(Str

2013-10-31 21:00:51 1035

原创 JSP中的response对象

Jsp的隐藏对象response在转换为servlet对象之后，对应于HttpServletResponse形态对象。HttpServletResponse就是有关客户端请求之响应，可以用它来设定一些标题、响应状态信息。response对象所提供的方法。（1）设定表头的方法 void addCookie(Cookie cookie) 新增cookie

2013-10-31 12:48:11 1731

转载基于组件的游戏编程 CBSE(Componnet Based Software Engineering)

在传统OO编程中.区别于其他语言最大的亮点在于继承.这是一把双刃剑.优点:将数据与逻辑组织的更紧密.更进一步的强化了代码与现实的对应关系.缺点:当继承树达到一定规模后.要改某个节点的功能将会很麻烦,我以游戏举例.因为游戏里的类创造性很大.变化也很大.看下面类图.这种设计很常见.GameNode里有最基本的属性.比如postion x, y. scale 等等,然

2013-10-30 23:41:51 1727

转载泰勒级数定义及相关展开式

泰勒级数、欧拉公式、三角函数泰勒级数的定义：若函数f（x）在点的某一临域内具有直到（n+1）阶导数，则在该邻域内f（x）的n阶泰勒公式为：其中：，称为拉格朗日余项。以上函数展开式称为泰勒级数。泰勒级数在幂级数展开中的作用：在泰勒公式中，取，得：这个级数称为麦克劳林级数。函数f（x）的麦克劳林级数是x的幂级数，那么这种展开是唯一的，

2013-10-26 21:56:13 3604

转载隐马尔科夫模型

隐马尔可夫模型 (Hidden Markov Model，HMM) 最初由 L. E. Baum 和其它一些学者发表在一系列的统计学论文中，随后在语言识别，自然语言处理以及生物信息等领域体现了很大的价值。平时，经常能接触到涉及 HMM 的相关文章，一直没有仔细研究过，都是蜻蜓点水，因此，想花一点时间梳理下，加深理解，在此特别感谢 52nlp 对 HMM 的详细介绍。　　考虑下面交通灯的

2013-10-24 13:50:56 2327 4

转载马尔可夫链

1.什么是随机过程？在当代科学与社会的广阔天地里，人们都可以看到一种叫作随机过程的数学模型：从银河亮度的起伏到星系空间的物质分布、从分子的布朗运动到原子的蜕变过程，从化学反应动力学到电话通讯理论、从谣言的传播到传染病的流行、从市场预测到密码破译，随机过程理论及其应用几乎无所不在。人类历史上第一个从理论上提出并加以研究的过程模型是马尔科夫链，它是马尔科夫对概率论乃至人类思想发展作出的又一伟大

2013-10-24 00:44:20 6228

原创数据库中的范式理论

本文全部内容来自百度百科。构造数据库必须遵循一定的规则。在关系数据库中，这种规则就是范式。范式是符合某一种级别的关系模式的集合。关系数据库中的关系必须满足一定的要求，即满足不同的范式。目前关系数据库有六种范式：第一范式（1NF）、第二范式（2NF）、第三范式（3NF）、第四范式（4NF）、第五范式（5NF）和第六范式（6NF）。满足最低要求的范式是第一范式（1NF）。在第一范式

2013-10-23 18:38:38 1399

原创数据库中的事务操作

数据库事务数据库事务(Database Transaction) ，是指作为单个逻辑工作单元执行的一系列操作，要么完整地执行，要么完全地不执行。事务处理可以确保除非事务性单元内的所有操作都成功完成，否则不会永久更新面向数据的资源。通过将一组相关操作组合为一个要么全部成功要么全部失败的单元，可以简化错误恢复并使应用程序更加可靠。一个逻辑工作单元要成为事务，必须满足所谓的ACID（原子性

2013-10-23 16:20:08 2066

转载 java的垃圾回收机制

1. 垃圾回收的意义　　在C++中，对象所占的内存在程序结束运行之前一直被占用，在明确释放之前不能分配给其它对象；而在Java中，当没有对象引用指向原先分配给某个对象的内存时，该内存便成为垃圾。JVM的一个系统级线程会自动释放该内存块。垃圾回收意味着程序不再需要的对象是"无用信息"，这些信息将被丢弃。当一个对象不再被引用的时候，内存回收它占领的空间，以便空间被后来的新对象使用。事实上，除了释放

2013-10-20 10:20:52 1177

原创个人面试经验分享

九月、十月是收获的季节，也是奔波的季节。我也不例外，没有特殊的机遇，但是也是经历了一次残酷的海选啊，把我经历简单的分享给各位学弟学妹们。我数了一下大概面了六家公司：阿里，华为，大众点评，威盛，百度，美团。阿里巴巴我是处男面啊，第一次就这么没了，总共有2面。第一面面技术，先问了我一下项目，由于我做ASIC的，估计他兴趣也不大。问了如下问题：（1）字符串编

2013-10-18 15:48:38 19722 12

原创 java中的常用包

1 、 java.lang 包： java 的核心类库，包含了运行java 程序必不可少的系统类，如基本数据类型、基本数学函数、字符串处理、线程、异常处理类等，系统缺省加载这个包。2 、 java.io 包： java 语言的标准输入 / 输出类库，如基本输入 / 输出流、文件输入 / 输出、过滤输入 / 输出流等等。3 、 java.util 包： Java 的实用工具类库Jav

2013-10-15 09:31:28 3393 4

转载 StringTokenizer类的使用

StringTokenizer是一个用来分隔String的应用类，相当于VB的split函数。1.构造函数public StringTokenizer(String str)public StringTokenizer(String str, String delim)public StringTokenizer(String str, String delim, boolean

2013-10-15 00:13:01 1027

转载 JobTracker和TaskTracker

JobTracker 对应于 NameNodeTaskTracker 对应于 DataNodeDataNode 和NameNode 是针对数据存放来而言的JobTracker和TaskTracker是对于MapReduce执行而言的 mapreduce中几个主要概念，mapreduce整体上可以分为这么几条执行线索：jobclient，JobTra

2013-10-14 10:54:05 1340

转载不简单的URL去重

发现我有好几篇blog的前缀都是用的“不简单”，它大概描述了这样一个状态：一个看起来很简单的任务在实践之后，发现其实很不容易。很多事情都是这样，如果不是亲自去做，如果不是仔细钻研，那就只能处于雾里看花的状态。这让我想到另一个故事，在我毕业的那年曾经被某公司的CTO面试，他和我说过一句话让我至今记忆犹新，他跟我说技术其实是很简单的（几年后某位大牛也和我表达过类似的意思）。我一直琢磨这句话的含义，

2013-10-14 09:26:34 1150

原创带通配符的字符串比较

字符串中含有“*”和“？”如何实现匹配。算法不用解释，看代码就明白了。#include #include #include using namespace std;//顺边贴一个任意类型转string的代码templatestring ToString(T flag){ stringstream ret; ret<<flag; return ret.str();}

2013-10-09 15:19:25 3207

原创字符串hash函数

本文搜集了一些字符串的常用hash函数。范例1：判断两个单词是否含有相同的字母，此时我们可以用hash做。例如，“aaabb”与"aabb"含有相同的单词。#include using namespace std; int hash(const char* a) //hash函数设计到位，节约了空间，当然我们也可以用bitset{ int tmp=0; w

2013-10-09 13:12:04 1479

原创排序数组中重复最多的数字长度

题目：在 1,2,2,3,3,3,4,5,5,6中1,2.2,3.3.3,4,5.5,6都是平台。试编写一个程序，接受一个数组，把这个数组中最长的平台找出来。在上面的例子中就是3.3.3就是该数组中最长的平台。分析：排序给我们带来的好处是在o(n)的时间复杂度就能解决这个问题。下面看代码：#include #include using namespace std;int Fi

2013-10-09 12:39:14 1313

转载 Boost/adaBoost算法

1.1 Boosing算法起源　　Boosting是一种提高任意给定学习算法准确度的方法。它的思想起源于 Valiant提出的 PAC ( Probably Approxi mately Cor2rect)学习模型。Valiant和 Kearns提出了弱学习和强学习的概念 ,识别错误率小于1 /2,也即准确率仅比随机猜测略高的学习算法称为弱学习算法;识别准确率很高并能在多项式时间内完成的学习算

2013-10-09 10:07:05 1998

原创线性时间排序

夜深人静的时候，最好写代码，趁着大家熟睡之际，复习一下这几种排序方法。原理再算法导论上都有。计数排序计数排序算法的基本思想是对于给定的输入序列中的每一个元素x，确定该序列中值小于x的元素的个数。一旦有了这个信息，就可以将x直接存放到最终的输出序列的正确位置上。当然，如果有多个元素具有相同的值时，我们不能将这些元素放在输出序列的同一个位置上，因此，上述方案还要作适当的修改。

2013-10-09 01:01:58 1464

转载二项堆

原文：http://blog.csdn.net/acceptedxukai/article/details/6951922二项堆是可合并堆的数据结构，应该功能应该类似左偏树。二项树二项树Bk是一种递归定义的有序树，如下图所示。a)二项树Bk的递归定义，三角形表示有根的子树，b)二项树B0至B4,B4中显示出了各节点的深度，c)以另一种方式来看二项

2013-10-08 13:30:55 1145

转载 PCA的数学原理

原文：http://blog.codinglabs.org/articles/pca-tutorial.htmlPCA（Principal Component Analysis）是一种常用的数据分析方法。PCA通过线性变换将原始数据变换为一组各维度线性无关的表示，可用于提取数据的主要特征分量，常用于高维数据的降维。网上关于PCA的文章有很多，但是大多数只描述了PCA的分析过程，

2013-10-07 13:16:25 1343

转载 Latent semantic analysis note(LSA)

1 LSA IntroductionLSA(latent semantic analysis)潜在语义分析，也被称为LSI(latent semantic index)，是Scott Deerwester, Susan T. Dumais等人在1990年提出来的一种新的索引和检索方法。该方法和传统向量空间模型(vector space model)一样使用向量来表示词(terms)和文

2013-10-07 10:41:37 1946

原创工程矩阵-SVD分解

1.特征值与特征向量特征值满足的性质：【注】主对角上元素的和称为矩阵的迹，即a11+a22..ann。2.特征向量的性质定理1：互不相等的特征值所对应的特征向量线性无关。【注】在线性代数里，矢量空间的一组元素中，若没有矢量可用有限个其他矢量的线性组合所表示，则称为线性无关或线性独立(linearly independent)，反之称为线性

2013-10-06 23:41:35 2088

转载奇异值分解SVD应用—LSI/LSA

原文：http://blog.csdn.net/abcjennifer/article/details/8131087（又看不懂的地方，原文评论有点解答）潜在语义索引（Latent Semantic Indexing）是一个严重依赖于SVD的算法，本文转载自之前吴军老师《数学之美》和参考文献《机器学习中的数学》汇总。————————————在自然语言处理中，最常

2013-10-06 23:27:11 2279 1

原创简单复习下高数

1.多元函数的极值问题极值不是最值，是一个局部的概念。那么如何判断一个多元函数是否有极值呢。下面只是必要条件，即是极值一定要满足下列条件，满足下列条件不一定是极值。推广：【注】驻点不一定是极值，极值一定是驻点。【注】研究极值除了研究驻点外，还应该研究驻点不存在的点。充分条件：2. 条件极值（拉格朗日）无条件极值：除

2013-10-06 22:13:58 1908 3

转载监督学习与无监督学习

机器学习的常用方法，主要分为有监督学习(supervised learning)和无监督学习(unsupervised learning)。监督学习，就是人们常说的分类，通过已有的训练样本（即已知数据以及其对应的输出）去训练得到一个最优模型（这个模型属于某个函数的集合，最优则表示在某个评价准则下是最佳的），再利用这个模型将所有的输入映射为相应的输出，对输出进行简单的判断从而实现分类的目的，也就

2013-10-06 19:18:00 1396

转载层次聚类方法

不管是GMM，还是k-means，都面临一个问题，就是k的个数如何选取？比如在bag-of-words模型中，用k-means训练码书，那么应该选取多少个码字呢？为了不在这个参数的选取上花费太多时间，可以考虑层次聚类。假设有N个待聚类的样本，对于层次聚类来说，基本步骤就是： 1、（初始化）把每个样本归为一类，计算每两个类之间的距离，也就是样本与样本之间的相似

2013-10-06 18:52:54 1704

转载数据预处理

现实世界中数据大体上都是不完整，不一致的脏数据，无法直接进行数据挖掘，或挖掘结果差强人意。为了提前数据挖掘的质量产生了数据预处理技术。　　数据预处理有多种方法：数据清理，数据集成，数据变换，数据归约等。这些数据处理技术在数据挖掘之前使用，大大提高了数据挖掘模式的质量，降低实际挖掘所需要的时间。　　一、数据清理　　首先是处理空缺值，如：要分析某市场的销售和顾客数据，但顾客的income项

2013-10-06 17:38:47 1407

转载机器学习-分类算法总结

目前看到的比较全面的分类算法,总结的还不错. 2.4.1 主要分类方法介绍解决分类问题的方法很多[40-42] ，单一的分类方法主要包括：决策树、贝叶斯、人工神经网络、K-近邻、支持向量机和基于关联规则的分类等；另外还有用于组合单一分类方法的集成学习算法，如Bagging和Boosting等。（1）决策树决策树是用于分类和预测的主要技术之一，决策树学习是以实例为基础的归纳学习算法，

2013-10-06 16:44:30 3946

转载图像特征提取与匹配之SIFT算法

转自：http://blog.csdn.net/v_JULY_v/article/details/6186942尺度不变特征转换(Scale-invariant feature transform 或 SIFT)是一种电脑视觉的算法用来侦测与描述影像中的局部性特征，它在空间尺度中寻找极值点，并提取出其位置、尺度、旋转不变量，此算法由 David Lowe 在1999年所发表，2

2013-10-06 16:23:48 2339

转载信息检索-Bag of words模型

Bag of words，也叫做“词袋”，在信息检索中，Bag of words model假定对于一个文本，忽略其词序和语法，句法，将其仅仅看做是一个词集合，或者说是词的一个组合，文本中每个词的出现都是独立的，不依赖于其他词是否出现，或者说当这篇文章的作者在任意一个位置选择一个词汇都不受前面句子的影响而独立选择的。这种假设虽然对自然语言进行了简化，便于模型化，

2013-10-06 15:49:52 1616

转载 SIFT算法的应用--目标识别之Bag-of-words模型

本blog之前已经写了四篇关于SIFT的文章，请参考九、图像特征提取与匹配之SIFT算法，九（续）、sift算法的编译与实现，九（再续）、教你一步一步用c语言实现sift算法、上，及九（再续）、教你一步一步用c语言实现sift算法、下。上述这4篇文章对SIFT算法的原理和C语言实现都做了详细介绍，用SIFT做图像匹配效果不错。现在考虑更为高层的应用，将SIFT算法应用于目标识别：发现图像中

2013-10-06 15:49:02 2189 1

转载 Canopy Method算法

原文： http://www.cnblogs.com/shipengzhi/articles/2540514.html 聚类是机器学习里很重要的一类方法，基本原则是将“性质相似”(这里就有相似的标准问题，比如是基于概率分布模型的相似性又或是基于距离的相似性)的对象尽可能的放在一个Cluster中而不同Cluster中对象尽可能不相似。对聚类算法而言，有三座大山需要爬过去：

2013-10-06 15:28:43 1747

在使用k近邻法进行分类时，对新的实例，根据其k个最近邻的训练实例的类别，通过多数表决的方式进行预测。由于k近邻模型的特征空间一般是n维实数向量，所以距离的计算通常采用的是欧式距离。关键的是k值的选取，如果k值太小就意味着整体模型变得复杂，容易发生过拟合，即如果邻近的实例点恰巧是噪声，预测就会出错，极端的情况是k=1，称为最近邻算法，对于待预测点x，与x最近的点决定了x的类别。k值得增大意味着整体的

2013-10-06 13:46:08 2198

原创交叉验证

交叉验证（Cross Validation，CV）是为了得到可靠稳定的模型，机器学习、数据挖掘中经常要用到的技巧。将数据样本切割成较小子集的实用方法。于是可以先在一个子集上做分析，而其它子集则用来做后续对此分析的确认及验证。一开始的子集被称为训练集。而其它的子集则被称为验证集或测试集。但是这个划分数据集过程常常会导致过度专门化（over-specialization）的问题，即数据的性质分

2013-10-06 13:11:03 2283

转载统计学习方法概论

1.统计学习统计学习是关于计算机基于数据构建概率统计模型并运用模型对数据进行预测与分析的一门学科，也称统计机器学习。统计学习是数据驱动的学科。统计学习是一门概率论、统计学、信息论、计算理论、最优化理论及计算机科学等多个领域的交叉学科。统计学习的对象是数据，它从数据出发，提取数据的特征，抽象出数据的模型，发现数据中的知识，又回到对数据的分析与预测中去。统计学习

2013-10-06 11:40:42 1258

转载一元线性回归模型与最小二乘法及其C++实现

原文：http://blog.csdn.net/qll125596718/article/details/8248249 监督学习中，如果预测的变量是离散的，我们称其为分类（如决策树，支持向量机等），如果预测的变量是连续的，我们称其为回归。回归分析中，如果只包括一个自变量和一个因变量，且二者的关系可用一条直线近似表示，这种回归分析称为一元线性回归分析。如果回归分析中包括两个或

2013-10-06 11:17:44 2193

转载 K-means算法实现

1.基本Kmeans算法[1][cpp] view plaincopy选择K个点作为初始质心 repeat 将每个点指派到最近的质心，形成K个簇重新计算每个簇的质心 until 簇不发生变化或达到最大迭代次数时间复杂度：O(tKmn)，其中，t为迭代次数，K为簇的数目，m为记录数，n为维数

2013-10-05 23:16:33 1575

转载 BIRCH算法

1.BIRCH算法概念 BIRCH（Balanced Iterative Reducing and Clustering Using Hierarchies）全称是：利用层次方法的平衡迭代规约和聚类。BIRCH算法是1996年由Tian Zhang提出来的，参考文献1。首先，BIRCH是一种聚类算法，它最大的特点是能利用有限的内存资源完成对大数据集的高质量的聚类，同时通过

2013-10-05 22:29:44 1779

空空如也

空空如也