机器学习
文章平均质量分 56
本专栏结合作者本人学习cs229、西瓜书、李弘毅机器学习感悟,总结出机器学习基础算法心得。
人工智能插班生
双一流大学人工智能方向博士,Google GDE。已经发表SCI论文多篇,CSDN专栏文章、知乎文章近百篇(机器学习专栏、深度学习专栏、强化学习专栏、自然语言处理NLP专栏)
展开
-
机器学习与深度学习系列连载: 第一部分 机器学习(十八)模型评估
模型评估模型评估中有三个关键问题: 如何获得测试结果? 评估方法 如何评估性能优劣? 性能度量 如何判断实质差别? 比较检验1. 模型评估方法,请参考机器学习第四节[误差分析](https://blog.csdn.net/dukuku5038/article/details/82682855)2. 性能度量(performance measure)是衡量模型泛化能力的...原创 2018-10-06 22:42:39 · 640 阅读 · 0 评论 -
机器学习与深度学习系列连载: 第一部分 机器学习(十七)非监督度学习-4 Unsupervised Learning-4(Generative Models)
生成模型 Generative Models用非监督学习生成结构化数据,是非监督模型的一个重要分支,本节重点介绍三个算法: Pixel RNN ,VAE 和GAN(以后会重点讲解原理)1. Pixel RNNRNN目前还没有介绍,,以后会重点讲解,大家目前认为他是一个神经网络即可举例:用Pixel RNN 生成怪物精灵;我们首先进行配色编码:然后遮盖部门图片,进行图片生成2....原创 2018-10-06 11:47:56 · 499 阅读 · 0 评论 -
机器学习与深度学习系列连载: 第一部分 机器学习(十六)非监督度学习-3 Unsupervised Learning-3(Auto-Encoder)
Auto-EncoderAuto-Encoder 原理很简单,但是应用范围很广,本节重点讨论它的应用。我们从PCA开始:当然中间的影藏层可以很深:我们的图像效果:当然,Auto-Encoder 并不是图像处理的专利,而且也可以处理文本。在图形处理CNN中的应用(CNN以后会重点讲解)...原创 2018-10-06 11:01:08 · 375 阅读 · 0 评论 -
机器学习与深度学习系列连载: 第一部分 机器学习(十五)非监督度学习-2 Unsupervised Learning-2(Neighbor Embedding)
临近编码 Neighbor Embedding在非监督学习降维算法中,高纬度的数据,在他附近的数据我们可以看做是低纬度的,例如地球是三维度的,但是地图可以是二维的。那我们就开始上算法1. Locally Linear Embedding (LLE)我们需要找到wijw_{ij}wij 来最小化:找到wijw_{ij}wij后,我们固定它,然后在z中进行判断实验:2. L...原创 2018-10-06 10:51:05 · 415 阅读 · 0 评论 -
机器学习与深度学习系列连载: 第一部分 机器学习(十四)非监督度学习-1 Unsupervised Learning-1
非监督度学习-1 Unsupervised Learning-1(K-means,HAC,PCA)非监督学习方法主要分为两大类Dimension Reduction (化繁为简)Generation (无中生有)目前我们仅专注化繁为简,降维的方法,无中生有(GAN为代表的)方法,以后关注。1. Clustering• K-means 算法经典的非监督根据距离分类算法:...原创 2018-10-03 17:11:49 · 622 阅读 · 0 评论 -
机器学习与深度学习系列连载: 第一部分 机器学习(十三)半监督学习(semi-supervised learning)
1原创 2018-10-03 14:45:41 · 1978 阅读 · 0 评论 -
机器学习与深度学习系列连载: 第一部分 机器学习(十二)集成学习(Ensemble)
集成学习(Ensemble)1. Bagging我们考虑当结果的 variance 很大,如果降低 variance。我们可以考虑“平行宇宙”,不同的training set 中生成不同的模型,然后做平均或者voting。2. Decision Tree(Review)我们复习上一节的决策树的概念。来一个有意思的实验,分辨出漫画人物当单棵决策树的深度为20的时候,得到的结果已经...原创 2018-10-02 22:33:51 · 1653 阅读 · 0 评论 -
机器学习与深度学习系列连载: 第一部分 机器学习(十一)决策树2(Decision Tree)
决策树2决策树很容易出现过拟合问题,针对过拟合问题,我们采用以下几种方法划分选择 vs 剪枝剪枝 (pruning) 是决策树对付“过拟合”的 主要手段!基本策略:预剪枝 (pre-pruning): 提前终止某些分支的生长后剪枝 (post-pruning): 生成一棵完全树,再“回头”剪枝剪枝过程中需评估剪枝前后决策树的优劣我们还是以西瓜书的例子:我们通过训练集得到未剪...原创 2018-10-01 16:09:19 · 882 阅读 · 0 评论 -
机器学习与深度学习系列连载: 第一部分 机器学习(十)决策树1(Decision Tree)
决策树(Decision Tree)原创 2018-09-29 09:47:30 · 643 阅读 · 0 评论 -
机器学习与深度学习系列连载: 第一部分 机器学习(九)支持向量机2(Support Vector Machine)
另一种视角定义SVM:hinge Loss +kennel trickSVM 可以理解为就是hingle Loss和kernel 的组合1. hinge Loss还是让我们回到二分类的问题,为了方便起见,我们y=1 看做是一类,y=-1 看做是另一类他的Loss 函数是分类错误的次数,很显然,这是个离散的值,不可微分,我们需要找到一个等价的Loss于是我们出各种等价Loss 函数的...原创 2018-09-20 09:24:50 · 518 阅读 · 0 评论 -
机器学习与深度学习系列连载: 第一部分 机器学习(八)支持向量机1(Support Vector Machine)
SVM我们定义SVM为hinge Loss +kennel trik 为SVM 首先我们看看 hinge Loss 1. hinge Loss还是让我们回到二分类的问题,为了方便起见,我们y=1 看做是一类,y=-1 看做是另一类 他的Loss 函数是分类错误的次数,很显然,这是个离散的值,不可微分,我们需要找到一个等价的Loss 于是我们出各种等价Loss 函数...原创 2018-09-19 09:52:21 · 1209 阅读 · 0 评论 -
机器学习与深度学习系列连载: 第一部分 机器学习(七)朴素贝叶斯(Naive Bayes)
朴素贝叶斯我们先来看贝叶斯公式: 这个和咱们上一讲生成概率模型的公式是不是很相似,朴素贝叶斯其实就是概率生成模型的一个特例,概率生成模型是假设x 是服从某种特定的概率分布的。x中的各个维度有有相互关系的。 但是朴素贝叶斯为什么朴素,就是假设x是独立分布的。 以邮件分类应用为例,当邮件中出现单词‘buy’,‘price’很可能是广告邮件,我们可能把他分类为垃圾邮件。那么我们得到: ...原创 2018-09-15 15:45:21 · 1019 阅读 · 1 评论 -
机器学习与深度学习系列连载: 第一部分 机器学习(六)训练数据和测试数据(Train data and Test data)
训练数据和测试数据我们现在已经对机器学习三板斧已经有了比较深入的了解,其实机器学习的过程就是找到一个数学模型(函数),来进行问题求解。但是如何从找到的函数集合中挑选最好的,很多同学已经可以脱口而出了:那就是找到让Loss函数最小的函数最小就可以了。 但是,这个让Loss函数最小的结果从哪里得出?,这就带出来训练数据集合测试数据集的概念了。 直觉上,我们的模型在训练数据集表现的好,在测试数据集上...原创 2018-09-14 11:01:16 · 8130 阅读 · 1 评论 -
机器学习与深度学习系列连载: 第一部分 机器学习(五) 生成概率模型(Generative Model)
生成概率模型(Generative Model)我们还是从分类问题说起: 当我们把问题问题看做是一个回归问题, 分类是class 1 的时候结果是1 分类为class 2的时候结果是-1; 测试的时候,结果接近1的是class1 ,结果接近-1的是class2 问题解决了! 但是这只是看起来很美,但是如果结果远远大于1的时候,他的分类应该是class1还是class2,我们为了...原创 2018-09-14 10:36:55 · 11031 阅读 · 5 评论 -
机器学习与深度学习系列连载: 第一部分 机器学习(四)误差分析(Bias and Variance)和模型调优
1.误差分析(Bias and Variance)当我们以非常复杂的模型去进行测试的时候,可能得到的结果并不理想 影响结果的主要有两个因素:Bias 偏差、Variance 方差Bias 偏差在这里,我们定义偏差是指与目标结果的偏移量,这个偏移量是我们选出来的函数的期望 E(f∗)E(f∗)E(f^{*})。如图所示:与目标距离远的是大偏差,与目标距离近的是小偏差 Var...原创 2018-09-13 09:34:55 · 2005 阅读 · 1 评论 -
机器学习与深度学习系列连载: 第一部分 机器学习(三)监督学习:分类和逻辑回归(Classification and logistic regression)
分类和逻辑回归(Classification and logisticregression)我们接着线性回归的问题,在实际问题中,我们不仅需要得出具体的预测数值,我们还需要将数据进行分类。例如,垃圾邮件识别程序,需要将邮件识别为正常邮件(标记为+1),垃圾邮件(标记为 0)。这是一个典型的分类问题。逻辑回归( logistic)...原创 2018-09-11 13:24:40 · 2277 阅读 · 3 评论 -
机器学习与深度学习系列连载: 第一部分 机器学习(二)监督学习:线性回归
回归问题(Regression)回归问题实际是就是找到一个函数f(x)f(x)f(x)通过输入的数据xxx,输出一个值outputoutputoutput。应用举例:股市预测fff()=A股指数=A股指数= A 股 指数自动驾驶fff()=方向盘的角度=方向盘的角度= 方向盘的角度商品推荐f(用户A,商品B)=购买的可能性(购买指数)f(用户A,商品B)=购买的可能...原创 2018-09-07 21:42:01 · 3414 阅读 · 2 评论 -
机器学习与深度学习系列连载: 第一部分 机器学习(一)导论
什么是机器学习?1.机器学习===寻找一种函数这个函数可以:语音识别:输入一段语音信号,输出文字 fff()="howareyou"="howareyou"="how are you"图像识别:输入图片,输出图片的属性 fff( )=“cat”=“cat”=“cat”智能控制:输入棋盘局势,原创 2018-09-03 12:34:41 · 3786 阅读 · 3 评论 -
机器学习与深度学习系列连载(NTU-Machine Learning, cs229, cs231n, cs224n, cs294):欢迎进入机器学习的世界
欢迎使用Markdown编辑器写博客强调内容本Markdown编辑器使用StackEdit修改而来,用它写博客,将会带来全新的体验哦:Markdown和扩展Markdown简洁的语法代码块高亮图片链接和图片上传LaTex数学公式UML序列图和流程图离线写博客导入导出Markdown文件丰富的快捷键快捷键加粗 Ctrl + B 斜体 Ctrl...原创 2018-09-02 23:11:43 · 11940 阅读 · 6 评论