机器学习
极致 for 简单
贵在坚持
展开
-
李宏毅机器学习hw1预测PM2.5代码实现
题目:预测N年N月N时的PM2.5,要求根据前九个小时所有数据来推测第十小时的PM2.5。step1:Model,确定function set特征选取:仅使用前9个小时的PM2.5。model确定为:y=w1x1+w2x2+…w9x9在训练集中筛选出PM2.5,并将其以2:8分为验证集和训练集。,将0-23时的数据,10个为一组存入到numpy.array...原创 2019-01-24 12:19:59 · 2272 阅读 · 3 评论 -
kernel SVM
接着上篇文章,SVM常被我们在进行特征转化时拿来刻画问题背后的规则而使用,因此我们希望求解优化问题时可以不依赖转化后的维数,所以在上一篇文章里推到了dual SVM 先求出α,利用α求出w和b。但是在利用QP求解α时,矩阵Q的每一项都两个样本转化后特征的内积,因此计算矩阵Q复杂度很大,不只是矩阵Q,在计算b时,也含有转化后特征与w的内积,我们能否找到一种方法可以很快的计算出与转化后特征有关的内积运...原创 2019-07-06 11:58:43 · 957 阅读 · 0 评论 -
linear support vector machine
一、推导SVM对于使用perceptron algorithm来分类,优化的目标函数是不存在错误点,想要达到不存在错误点的目标hypothesis可以有多条,最后能取到的hypothesis依赖于数据,结果具有随机。可能有的结果不错,有的结果不好,不具有稳定性。我们希望获得的hypothesis在一组数据是一致的,而不是可能取决于根数据存放顺序(也影响了generalization 能力)。...原创 2019-06-29 13:12:28 · 311 阅读 · 0 评论 -
regularization
regularization是解决overiftting的有效手段,而overfitting往往是hypothesis过于复杂。如果在学习之前我们就在hypothesis set中增加一些constraint,避免hypothesis set过于复杂,称这样的hypothesis set为regularized hypothesis set!比如,我们可以限制w为0的个数不超过某个数,但是这是n...原创 2019-06-24 20:11:05 · 234 阅读 · 0 评论 -
overfitting
机器学习的效果如何得看他的泛化能力咋样,学的不咋的,又可以分为:underfitting,即在看过的数据集上就没有做好,这时候可以增加hypothesis 模型复杂度,通过feature transform增加dvc。overfitting,即在看多的训练集上表现的很好,计算的hypothesis完全符合看过的数据点,但是Eout不好。与underfitting不同,overfitting的成因很...原创 2019-06-24 14:54:38 · 331 阅读 · 0 评论 -
validation
如何来确定最优的模型?使用Ein(w):以最小的Ein(w)作为标准,将导致模型复杂度过高,往往泛化能力不足!使用Etest(w):但是无法收集测试数据!折中的方案就是从用于演算法的数据割裂一部分出来,以pick 最优的模型!如果没有validation data,我们将所有收集的数据喂到M个演算法(model)中根据error function 学到最优参数,同样使用这组数据计算出...原创 2019-06-25 18:46:45 · 4287 阅读 · 0 评论 -
nonlinear transformation
一、non-linear separable data set可以说,在我们之前所学的知识中,linear binary classification是基石!对于linear binary classification问题,我们可以尝试使用linear regression 、logistic regression、pocket algorithm来处理。而multiclass classif...原创 2019-06-10 12:49:15 · 450 阅读 · 0 评论 -
linear model for classification
线性模型:对数据集的特征求加权和之前学习的三种线性模型,hypothesis 不同,error function 不同,能否使用易于优化的线性模型处理线性分类问题?能不能就得看这些线性模型的Ein是否接近分类的Ein值。下面,我们将分析这些线性模型Ein间的关系。有了不同模型Ein的关系,利用vc-bound可以得出Eout与Ein的关系,做一个代换,可以看出,对于分类问题的Eout,如果...原创 2019-06-08 12:51:46 · 120 阅读 · 0 评论 -
logistic regression
binary classification 能将给定的样本进行分类,可是在一些场景下,我们在意的是给定样本,这个样本被断定为一个类别的概率!如果我们有了给定样本被分类为给定类别的概率分布估计,我们就能拿这个估计得来的概率分布做二元分类。所以,这个我们也称这样的问题为soft binary classification。一、收集训练集soft binary classification 的目...原创 2019-05-31 14:10:15 · 118 阅读 · 0 评论 -
machine learning可行性原理分析(三)
先来回顾一下前两篇文章,在有限的训练集中,我们知道无论什么学习算法,我们所产生的结果个数都是有限的,因而对应训练集,不同hypothesis个数也是确定的,因此,有成长函数的概念,break point 概念,成长函数与演算法的选择有关,不够泛化,我们想得出其上限,因此有了bounding 函数,更一步简化后,我们使用一个多项式来表达bounding函数的上限,最终我们可使用(上限的上限)来简化成...原创 2019-05-23 11:05:15 · 114 阅读 · 0 评论 -
感知机模型
模型=hypothesis set + algorithm感知机模型适用于二元问题,输出仅有两个值一、hypothesis set对于二维向量表示的样本其boundary 是直线,原创 2019-05-27 16:03:16 · 207 阅读 · 0 评论 -
types of learning
一、以输出空间来划分二元分类(y=+1、-1)多类别分类(y=1、2、…k)回归(y=R 或是 [k1,k2])结构学习(输出空间存在某种结构关系,比如输入是句子,为每个单词标注,可视为多类别分类问题,但是由于输入单词个数不确定性导致没有明确的输出类别)二、以训练集数据是否包含标签来划分监督学习非监督学习:不带标签具体来说,根据实际输出取值又可分为有clustering、densi...原创 2019-05-16 22:49:07 · 195 阅读 · 0 评论 -
linear regresssion
之前利用感知机演算法,我们可以在二元分类问题上进行机器学习。现在我们将探究输出空间为实数时,如何实现机器学习?一、linear regression 准备工作先假设vc bound对回归问题是成立的,因此我们来设计一个简单的演算法。对于演算法,我们需要训练集,hypothesis set,Ein(h)。来看看hypothesis:我们可以将hypothesis设定为特征的加权和。给定训练集...原创 2019-05-25 12:47:02 · 279 阅读 · 0 评论 -
Noise 和 Error
一、有Noise 时vc bound依旧成立在之前推导vc bound 的时候,我们假设样本空间里没有Noise,自然抽样样本中也不会有Noise。当hypothesis 的dvc有限,N足够大,Ein(h)足够小,我们就说机器有所学习。但是当样本空间中夹杂了Noise后,我们还能有这套理论的成立吗?解决思路:原先的target函数是确定的,对于每一个样本来说,都有唯一个标签。但现在我们可假设...原创 2019-05-24 16:40:59 · 346 阅读 · 0 评论 -
machine learning可行性数学原理论证篇(二)
在进入本篇文章之前,让我们来串联一下之前几篇文章我们都说了些什么。第一篇文章中,我们说machine learning目标在于在样本空间内找到一个g来近似于目标函数f(数学表达g ≈f ,即Eout(h)≈0)。第二篇文章,我们使用了某一具体的感知机算法,来找到在训练集中能使Ein(g)≈0的hypothesis。第三篇文章,对machine learning进行了分类,并指出batch sup...原创 2019-05-20 12:14:56 · 143 阅读 · 0 评论 -
machine learning introducion
从今天起,坚持刷机器学习基石,把老师开篇提出掌握机器学习技术应该具备的技能和想法放在这里,激励自己朝着这个方向努力!why how how better 不但是使用机器学习时要有如此觉悟,做任何选择都不应该如此吗?!什么是machine learning?允许我咬文嚼字一下下:learing本身是针对于生物的一种特性,学习的方法太多了,可以是透过自己观察总结来获取知识,也可以是透过别人告知规...原创 2019-05-14 15:15:02 · 104 阅读 · 0 评论 -
semi-supervisied learning
unlabel数据为什么有用?可以影响数据的分布存在一些假设有没有用就看假设是否合理semi-supervised learning for generative model:low-density separation assumption:数据分布最少的地方就是做好的boundary与生成模型的比较,label非黑即白,不以概率表示;训练神经网络,要使用hard类型的标注,更...原创 2019-02-20 17:08:08 · 187 阅读 · 0 评论 -
soft-margin SVM
本篇文章讨论如何防止SVM的过拟合:kernel function参数的选取(转化函数太复杂)和资料完全separable的要求将会导致过拟合!一、primal soft-margin SVM也许资料中含有Noise,资料本身就不是separable的,利用pocket演算法的思路,对于不完全可分的资料,我们只希望在学得的hypothesis上,资料犯的错误越少越好,因此可得到新的优化目标函...原创 2019-07-06 13:03:57 · 395 阅读 · 0 评论