2015年08月_shuiziliu1025

原创 AdaBoost算法

1. AdaBoost原理 AdaBoost，是英文"AdaptiveBoosting"（自适应增强）的缩写，由Yoav Freund和RobertSchapire在1995年提出。它的自适应在于：前一个基本分类器分错的样本会得到加强，加权后的全体样本再次被用来训练下一个基本分类器。同时，在每一轮中加入一个新的弱分类器，直到达到某个预定的足够小的错误率或达到预先指定的最大迭代次数。

2015-08-18 10:15:39 605

原创 Logistic回归与最大熵模型

Logistic（逻辑斯谛）回归是统计学习中的经典分类方法。最大熵是概率模型学习的一个准则，将其推广到分类问题得到最大熵模型（maximumentropy model）。Logistic 回归与最大熵模型都属于对数线性模型。1.逻辑斯谛分布设 X 是连续随机变量， X 服从逻辑斯谛分布指具有下列分布函数和密度函数：回归与最大熵模型" TITLE="Logistic 回归与最大熵模型"

2015-08-18 10:15:36 1729

原创 k近邻

k近邻法（k nearest neighboralgorithm，k-NN）是机器学习中最基本的分类算法，在训练数据集中找到k个最近邻的实例，类别由这k个近邻中占最多的实例的类别来决定，当k=1时，即类别为最近邻的实例的类别。如上图所示（引自wiki），当k=3时，此时红色的个数为2，则绿色的输入实例的类别

2015-08-18 10:15:33 580

原创决策树

机器学习中，决策树是一个预测模型；他代表的是对象属性与对象值之间的一种映射关系。树中每个节点表示某个对象，而每个分叉路径则代表的某个可能的属性值，而每个叶结点则对应从根节点到该叶节点所经历的路径所表示的对象的值。决策树仅有单一输出，若欲有复数输出，可以建立独立的决策树以处理不同输出。从数据产生决策树的机器学习技术叫做决策树学习,通俗点说就是决策树，说白了，这是一种依托于分类、训练上的预测树，

2015-08-18 10:15:31 522

原创数据库三范式详解

1.范式说明1.1 第一范式（1NF）无重复的列　　所谓第一范式（1NF）是指数据库表的每一列都是不可分割的基本数据项，同一列中不能同时有多个值，即实体中的某个属性不能有多个值或者不能有重复的属性。如果出现重复的属性，就可能需要定义一个新的实体，新的实体由重复的属性构成，新实体与原实体之间为一对多关系。在第一范式（1NF）中表的每一行只包含一个实例的信息。简而言之，第一范式就是无重复的列。

2015-08-18 10:15:28 527

原创 LIBSVM使用方法及参数设置（转）

原文地址：http://hi.baidu.com/yuanding232323/item/dee80e1a495c0b2bf6625c88 LIBSVM数据格式需要----------------------决策属性条件属性a 条件属性b ...2 1:7 2:5 ...1 1:4 2:2 ...数据格式转换----------------------当数据较少时，可以用for

2015-08-18 10:15:25 827

原创浅谈支持向量机

支持向量机（SVM）是一种两类分类模型，基本模型是定义在特征空间上的间隔最大的线性分类器。它还包括核技巧，这使它成为实质上的非线性分类器。SVM的学习策略就是间隔最大化。假设给定一个特征空间上的训练数据集T={(x1,y1),(x2,y2),......(xN,yN)}, N 为特征数目，yi为标记。(xi,yi)为样本点。学习的目标是在特征空间中找到一个超平面，能够将实例分到不同的类。一、

2015-08-18 10:15:21 550

原创 matlab 函数meshgrid的用法

meshgrid 函数用来生成网格矩阵，可以是二维网格矩阵，也可以是三维。对于生成二维网格，用法为：[x y]=meshgrid(a b); 矩阵 x 由复制 m 行的向量a 组成，矩阵 y 由复制 n 列的向量 b组成，等价于x=ones(size(b))'*a; y=b'*ones(size(a)) % a 和 b 是一维数组，如a=[1 2 3]; b= [2 3 4 ];

2015-08-18 10:15:18 685

原创 Matlab演示Parzen窗法

Parzen窗法：假定围绕x点的区域Rn为一立方体，边长为hn，空间维度为d，则体积为Vn=hnd,考察xk是否落入超立方体内，则要检查向量x-xk的每一个分量是否小于1/2。定义窗函数为于是利用matlab模拟，代码如下：function p=Parzen(xi,x,h1)% xi=randn(2,1024); xi 为样本% x=linspace(-2,2,102

2015-08-18 10:15:16 3769

原创 matlab size,length,numel函数的用…

size: 获取数组的行数和列数length: 数组长度（即行数和列数中的较大值）numel:元素总数1.size()函数s=size(A),当只有一个输出参数时，返回一个行向量，该行向量的第一个元素时数组的行数，第二个元素是数组的列数。[r,c]=size(A),当有两个输出参数时，size函数将数组的行数返回到第一个输出变量，将数组的列数返回到第二个输出变量。如果在s

2015-08-18 10:15:13 407

原创基于物品的协同过滤算法

之前的一篇博文里介绍的是基于用户的协同过滤算法http://blog.sina.com.cn/s/blog_dac9ee630102vhmh.html 但是该算法随着用户数目增多的情况下计算用户兴趣相似性矩阵将越来越困难，其运算复杂度空间复杂度的增长和用户的增长接近于平方的关系。所以就出现了基于物品的协同过滤算法（ItemCF:item-based collaborative filteing）

2015-08-18 10:15:11 1073

原创基于用户的协同过滤算法

最近正在读项亮博士的《推荐系统实践》人民邮电出版社，这本书应当是目前国内为数不多的介绍推荐算法的了。目前正在学习基于用户的协同过滤算法（UserCF :user-based collaborative filtering)。该算法是推荐系统中最古老的算法，标志着推荐系统的诞生，该算法在1992年提出用于邮件过滤系统，1994年被GroupLens用于新闻过滤。算法的主要思想是如果一个

2015-08-18 10:15:06 1156

原创 java实例 N的阶乘末尾有多少个0

最近看到一个笔试题目说是100的阶乘的末尾有多少个0? 例如N=10，N的阶乘=3628800，末尾有两个0。一个数 N 的阶乘末尾有多少个 0 取决于从 1 到 n 的各个数的因子中 2 和 5 的个数, 而 2 的个数是远远多余 5 的个数的, 因此求出 5 的个数即可. 题解中给出的求解因子 5 的个数的方法是用 n 不断除以 5, 直到结果为 0, 然后把中间得到的结果累加. 例如,

2015-08-17 21:45:17 1517

原创 java实例：1的数目

给定一个正整数N，写下从1开始到N的所有整数，然后数一下其中出现1的个数。例如 N=3， 1,2,3 出现1个1N=11, 1,2,3,4,5,6,7,8,9,10,11 出现4个1解法1：从1 开始遍历到N，将其中每一个数中含有1的个数加起来，就得到所有1的个数。程序清单：class count1num{ public int c

2015-08-16 19:42:20 471

转载斯坦福ML公开课笔记15—隐含语义索引、奇异值分解、独立成分分析

转载：http://blog.csdn.net/stdcoutzyx/article/details/38037659斯坦福ML公开课笔记15我们在上一篇笔记中讲到了PCA(主成分分析)。PCA是一种直接的降维方法，通过求解特征值与特征向量，并选取特征值较大的一些特征向量来达到降维的效果。本文继续PCA的话题，包括PCA的一个应用——LSI(Latent Semanti

2015-08-13 19:03:13 456

转载斯坦福ML公开课笔记14——主成分分析

转载：http://blog.csdn.net/stdcoutzyx/article/details/37568225上一篇笔记中，介绍了因子分析模型，因子分析模型使用d维子空间的隐含变量z来拟合训练数据，所以实际上因子分析模型是一种数据降维的方法，它基于一个概率模型，使用EM算法来估计参数。本篇主要介绍PCA(Principal Components Analysis, 主成

2015-08-13 19:01:15 545

转载斯坦福ML公开课笔记13B-因子分析模型及其EM求解

转载请注明：http://blog.csdn.net/stdcoutzyx/article/details/37559995本文是《斯坦福ML公开课笔记13A》的续篇。主要讲述针对混合高斯模型的问题所采取的简单解决方法，即对假设进行限制的简单方法，最后引出因子分析模型（Factor Analysis Model），包括因子分析模型的介绍、EM求解等。

2015-08-13 18:57:01 621

转载斯坦福ML公开课笔记13A——混合高斯模型、混合贝叶斯模型

转载：http://blog.csdn.net/stdcoutzyx/article/details/27368507本文对应公开课的第13个视频，这个视频仍然和EM算法非常相关，第12个视频讲解了EM算法的基础，本视频则是在讲EM算法的应用。本视频的主要内容包括混合高斯模型（Mixture of Gaussian, MoG）的EM推导、混合贝叶斯模型（Mixture of Naive Bay

2015-08-13 17:51:57 497

转载斯坦福ML公开课笔记12——K-Means、混合高斯分布、EM算法

公开课系列的pdf文档已经上传到csdn资源，下载请猛击这里。本文对应斯坦福ML公开课的第12个视频，第12个视频与前面相关性并不大，开启了一个新的话题——无监督学习。主要内容包括无监督学习中的K均值聚类(K-means)算法，混合高斯分布模型(Mixture of Gaussians, MoG)，求解MoG模型的EM算法，以及EM的一般化形式，在EM的一般化形式之前，还有一个小知识点，即

2015-08-13 17:46:02 595

转载斯坦福ML公开课笔记11——贝叶斯正则化、在线学习、ML应用建议

本文对应ML公开课的第11个视频。前半部分仍然是讲学习理论的内容，后半部分主要讲述一些在具体应用中使用ML算法的经验。学习理论的内容包括贝叶斯统计和正则化(Bayesianstatistics and Regularization)、在线学习(OnlineLearning)。ML经验包括算法的诊断(Diagnostics for debugging learning algorithms)、误

2015-08-13 17:41:24 665

转载斯坦福ML公开课笔记10——VC维、模型选择、特征选择

本篇是ML公开课的第10个视频，上接第9个视频，都是讲学习理论的内容。本篇的主要内容则是VC维、模型选择(Model Selection)。其中VC维是上篇笔记中模型集合无限大时的扩展分析；模型选择又分为交叉检验(Cross Validation)和特征选择(FeatureSelection)两大类内容。

2015-08-13 17:39:31 603

转载斯坦福ML公开课笔记9—偏差/方差、经验风险最小化、联合界、一致收敛

本篇与前面不同，主要内容不是算法，而是机器学习的另一部分内容——学习理论。主要包括偏差/方差（Bias/variance）、经验风险最小化（Empirical Risk Minization，ERM）、联合界（Union bound）、一致收敛（Uniform Convergence）。Ng对学习理论的重要性很是强调，他说理解了学习理论是对机器学习只懂皮毛的人和真正理解机器学习的人的区别。

2015-08-13 17:35:29 647

转载核技法、软间隔分类器、SMO算法——斯坦福ML公开课笔记8

转载请注明：http://blog.csdn.net/stdcoutzyx/article/details/9798843本篇对应斯坦福公开课的第8个视频，主要讲述了SVM（Support Vector Machine,支持向量机）的剩余部分。即核技法（Kernels）、软间隔分类器（softmargin classifier）、对SVM求解的序列最小化算法（Sequential Mini

2015-08-13 17:32:49 559

转载最优间隔分类、原始/对偶问题、SVM对偶—斯坦福ML公开课笔记7

转载请注明：http://blog.csdn.net/xinzhangyanxiang/article/details/9774135本篇笔记针对ML公开课的第七个视频，主要内容包括最优间隔分类器（Optimal Margin Classifier）、原始/对偶问题（Primal/Dual Problem）、svm的对偶问题，都是svm（support vector machine，支持向

2015-08-13 17:30:11 495

转载 NB多项式模型、神经网络、SVM初步—斯坦福ML公开课笔记6

转载请注明：http://blog.csdn.net/xinzhangyanxiang/article/details/9722701本篇笔记针对斯坦福ML公开课的第6个视频，主要内容包括朴素贝叶斯的多项式事件模型（MultivariateBernoulli Event Model）、神经网络（Neural Network）、支持向量机（Support Vector Machine）的函数

2015-08-13 17:27:13 478

转载生成学习、高斯判别、朴素贝叶斯—斯坦福ML公开课笔记5

转载请注明：http://blog.csdn.net/xinzhangyanxiang/article/details/9285001该系列笔记1-5pdf下载请猛击这里。本篇博客为斯坦福ML公开课第五个视频的笔记，主要内容包括生成学习算法（generate learning algorithm）、高斯判别分析（Gaussian DiscriminantAnalysis，GDA）、

2015-08-13 17:23:22 455

转载牛顿方法、指数分布族、广义线性模型—斯坦福ML公开课笔记4

转载请注明：http://blog.csdn.net/xinzhangyanxiang/article/details/9207047最近在看Ng的机器学习公开课，Ng的讲法循循善诱，感觉提高了不少。该系列视频共20个，每看完一个视频，我都要记录一些笔记，包括公式的推导，讲解时候的例子等。按照Ng的说法，公式要自己推理一遍才能理解的通透，我觉得自己能够总结出来，发到博客上，也能达到这个效果

2015-08-13 15:52:03 477

转载局部加权回归、逻辑斯谛回归、感知器算法—斯坦福ML公开课笔记3

转载请注明：http://blog.csdn.net/xinzhangyanxiang/article/details/9113681最近在看Ng的机器学习公开课，Ng的讲法循循善诱，感觉提高了不少。该系列视频共20个，每看完一个视频，我都要记录一些笔记，包括公式的推导，讲解时候的例子等。按照Ng的说法，公式要自己推理一遍才能理解的通透，我觉得自己能够总结出来，发到博客上，也能达到这个效果

2015-08-13 15:48:47 692

转载线性规划、梯度下降、正规方程组——斯坦福ML公开课笔记1-2

转载：http://blog.csdn.net/xinzhangyanxiang/article/details/9101621最近在看Ng的机器学习公开课，Ng的讲法循循善诱，感觉提高了不少。该系列视频共20个，每看完一个视频，我都要记录一些笔记，包括公式的推导，讲解时候的例子等。按照Ng的说法，公式要自己推理一遍才能理解的通透，我觉得自己能够总结出来，发到博客上，也能达到这个效果，希望

2015-08-12 21:03:39 579

原创 Java从键盘输入值

程序开发过程中，需要从键盘获取输入值是常有的事。　　列出几种方法：　　方法一：从控制台接收一个字符，然后将其打印出来　　public static void main(String [] args) throws IOException{ 　　System.out.print(“Enter a Char:”); 　　char i = (char) System.in.read();

2015-08-12 20:38:13 775

shuiziliu1025的博客