机器学习
文章平均质量分 76
本专栏主要记录了博主学习机器学习的学习笔记以及在机器学习实践中的心得体会
Jackie_Zhu
研究生关注机器学习数字图像处理
爱好算法,problem solving
展开
-
SVM(Support Vector Machine)读书笔记二(支持向量和Kernel方法)
在一个线性不可分的样本中,用添加多次项特征可以将两类样本分开,具体原理请参考 这里,用SVM分类器也是同样道理。如果两类样本交叉越多,需要越高次的特征,模型就越复杂,这在存储上和计算资源上都是很大的开销。SVM用kernel方法就解决了这个问题,kernel方法是将高维度的计算放到低维度来做,最后得到的是高纬度上的模型。具体原理请看下面的推导。特征转换如果样本在低纬度空间不可分,那么可以将样本的特征原创 2015-11-29 14:17:44 · 3775 阅读 · 0 评论 -
SVM(Support Vector Machine)读书笔记一(最佳分割超平面)
分类问题中,在一个线性不可分的样本上,通常需要用到一些Non-linear的特征,把低维度空间上的样本投影到高维度上,从而使得这些样本在高维度线性可分。但这投影过程通常也会有以下两个问题:1. 如果在原样本中加了太多的高次多项式的特征,首先会导致过拟合,模型的泛化能力会很差;2. 多项式组合会有指数级别的组合方式,这使得在投影后的样本空间中维度非常高,这也会消耗太多的计算资源和空间资源SVM解决了上面两个问题原创 2015-11-18 17:18:12 · 15251 阅读 · 5 评论 -
感知机学习算法的几何解释(perceptron learning algorithm)
原创 2013-11-27 18:08:58 · 6048 阅读 · 11 评论 -
Standford机器学习 聚类算法(clustering)和非监督学习(unsupervised Learning)
k-means是简单的聚类算法,在实现过程中有很多需要注意的地方,比如如何什么时候用k-means,怎么样判定k-means工作正常,k的值怎么选取,本文讲解关于k-means的方方面面原创 2013-07-11 21:43:42 · 5624 阅读 · 2 评论 -
Standford 机器学习应用的建议及机器学习系统的设计
前几讲学习了很多机器学习的算法,但是在实际的应用中会遇到很多过拟合和欠拟合的问题,这些问题都会导致测试结果不理想。用什么方法解决这些问题,是本讲研究的主题。举一个房价预测的例子,如果学习了一个模型,发现测试结果非常不理想(有非常大的误差),那么接下去该怎么办?下面有几种解决方法:1、 获取更多的样本,来训练模型 2、 试着用更少的特征来构建特征向量3、 特原创 2013-06-01 12:17:00 · 2996 阅读 · 0 评论 -
Standford机器学习 神经网络的学习(Neural Network Learning)
上一讲讲了神经网络的表示,神经网络中,从前一层映射到后一层的需要有个一个权重矩阵Theta和激活函数,映射后可以得到该层神经元的activation。如何来学习Theta是本讲要解决的内容。首先,对于一个分类问题,如果是两类问题,输出层只需要有一个神经元,输出1为正类,输出0为负类。而对于多类的问题,需要有多个神经元。定义一个神经网络,如下: 它的输出是一个向量,如图,假设原创 2013-05-26 17:45:57 · 2902 阅读 · 3 评论 -
Standford机器学习 神经网络(Neural Network)的表示
上一讲讲了如何用逻辑回归来解决分类问题,如果在两个类多维线性不可分的情况下,可以通过添加多项式项把向量投影到高维空间使得它线性可分。但这也存在一个问题,就是当选取的特征很多的时候,featurevector可能高达几千维,这就是维数爆炸的问题。 比如,如果有一个n个feature的向量,如果用二次项去拟合,那么产生的多项式会有x1^2,x1x2,x1x3…;x2^2, x2x3,原创 2013-05-16 17:40:09 · 4153 阅读 · 0 评论 -
Standford机器学习 逻辑回归(Logistic Regission)以及过拟合问题解决(Regularization)
1.分类问题 判断一封邮件是否为垃圾邮件,判断肿瘤是良性的还是恶性的,这些都是分类问题。在分类问题中,通常输出值只有两个(一般是两类的问题,多类问题其实是两类问题的推广)(0叫做负类,1叫做正类)。给定一组数据,标记有特征和类别,数据如(x(i),y(i)),由于输出只有两个值,如果用回归来解决会取得非常不好的效果。 在良性肿瘤和恶性肿瘤的预测中,样本数据如下 上图是用线原创 2013-05-07 15:45:05 · 10963 阅读 · 3 评论 -
Standford机器学习 线性回归Cost Function和Normal Equation的推导
1.线性回归CostFunction推导: 在线性回归中,Cost Function是,关于这个公式的推导,首先由一个假设,其中满足高斯分布,.那么根据得出在这里,把看成是随机变量,那么服从高斯分布,,对于给定的X,theta要估计y的分布是怎么样的,极大似然估计函数为:原创 2013-05-04 16:14:40 · 6841 阅读 · 8 评论 -
Standford 机器学习学习笔记 线性回归(Linear Regission)
本节内容主要包含单变量(One Variable)和求解costfunction的最优值的学习算法—梯度下降法(Gradientdescent)以及多变量(multipleVariable)的线性回归。1. 单变量的线性回归(Linear Regission with onevariable) 监督学习的样本中都含有对于每个输入变量的输出值,通过建立模型并且学习得到原创 2013-05-03 21:33:23 · 3187 阅读 · 3 评论