李宏毅机器学习笔记
文章平均质量分 89
n不正
大家好。
展开
-
误差(Error)
误差(Error)1 误差来源分析Error=bias2+variance+NoiseError = bias^2 + variance + Noise理论上最佳的模型f^ \hat f,我们只能找到f∗f^*作为f^\hat f的估测。 E(f∗)=f^E(f^*)=\hat fVariance方差: Variance反映的是模型每一次输出结果与模型输出期望之间的误差,即模型的稳定性。反原创 2017-04-12 11:08:22 · 642 阅读 · 0 评论 -
深度学习(Deep Learning) 1.介绍
深度学习(Deep Learning) 1.介绍1 历史1958年:Perceptron(Linear model),Frank Rosenblatt在1957年就职于Cornell航空实验室(Cornell Aeronautical Laboratory)时所发明的一种人工神经网络,是一种二元线性分类器。1969年:Perceptron has limitation,1969年Minsky和P原创 2017-04-14 18:32:11 · 626 阅读 · 0 评论 -
深度学习(Deep Learning) 6.why deep?
深度学习(Deep Learning) 6.why deep?1 fat+short or thin + tall?并不是参数越多表现越好modularization:模块化,(自动学习)Deep →\rightarrow modularization:每个模块只关注一小部分任务machine learning是因为没有足够的data,所以需要学习。?2 Speechphoneme:人类原创 2017-04-15 10:25:56 · 1210 阅读 · 0 评论 -
半监督学习(semi-supervised learning)
半监督学习(semi-supervised learning)1 introductionwhy semi-supervised learning? 收集数据很贵,收集有标签的数据更贵! superviesd:D={(xi,yi)}Ni=1D = \{ (x_i,y_i)\}_{i = 1}^N semi-supervised:D={(xi,yi)}Mi=1∪{xu}Nj=M+1D原创 2017-04-15 10:26:11 · 5586 阅读 · 0 评论 -
深度学习(Deep Learning) 5.CNN
深度学习(Deep Learning) 5.CNN1 Convolutional Neural Network常用于图像处理,为什么卷积神经网络处理图像效果好? 假设输入30000维,第一层1000维,那么这里的参数就有30000*1000个!CNN中可以去除一些参数,从而改变神经网络的架构。对于某一个神经元,它不需要看到整张图片,它只需要看到一部分特征模式,例如图片中有没有鸟嘴的存在只需要看原创 2017-04-15 10:25:12 · 756 阅读 · 0 评论 -
无监督学习(unsupervised learning) 1.线性方法
无监督学习(unsupervised learning) 1.线性方法1 unspervised learningReduction(化繁为简):Clustering & Dimension,只有输入Generation(无中生有):只有输出2 ClusteringHow many clusters?K-Means:将X={x1,x2,…,xN}X = \{x_1, x_2, …,x_N原创 2017-04-15 16:51:15 · 2852 阅读 · 0 评论 -
无监督学习(unsupervised learning) 3.近邻嵌入
无监督学习(unsupervised learning) 3.近邻嵌入Neighbour Embeddingmanifold learning:流行学习,将高维空间摊平(降维)——欧氏距离Locally linear Embedding(LLE):找到xix_i的近邻xjx_j,它们的关系为wijw_{ij},min∑i||xi−∑jwijxj||2min\sum\limits_{i} ||x_原创 2017-04-16 15:56:44 · 469 阅读 · 0 评论 -
无监督学习(unsupervised learning) 2.词嵌入
无监督学习(unsupervised learning) 2.词嵌入Word Embedding1-of-N Encoding:每一个词用一个向量表示,该词对应其中的一维 ↓\downarrowword class:词分类 ↓\downarrowword enbedding:嵌入到一个高维空间里count based:wiw_i和wjw_j经常同时出现,V(wi)V(w_i)和V(wj)V原创 2017-04-16 15:56:30 · 658 阅读 · 0 评论 -
无监督学习(unsupervised learning) 5.生成模型
无监督学习(unsupervised learning) 5.生成模型1 PixelRNN每次生成一个像素,下一个像素由之前所有的pixel决定应用:image、audiotips:每个像素用 1-of-N encoding feature 来表示——类似的颜色先进行聚类(得到167个不同的颜色)2 Variational Auto-Encoder(VAE)变分自编码器:结构类似,加了一些原创 2017-04-17 07:25:33 · 1523 阅读 · 0 评论 -
深度学习(Deep Learning) 2.BP算法
深度学习(Deep Learning) 2.BP算法1 Gradient Descent初始化参数θ0\theta _0计算∇L(θ0)\nabla L(\theta_0),θ1=θ0−η∇L(θ0)\theta_1 = \theta_0 - \eta\nabla L(\theta_0) ……神经网络中参数巨多!2 Chain Rule 链式法则y=g(x),z=h(y)y=g(x),z=原创 2017-04-14 18:33:18 · 268 阅读 · 0 评论 -
深度学习(Deep Learning) 3.Example
深度学习(Deep Learning) 3.Example1 IntroductionKeras:easy to learn,作者 Francois Chollet现在google工作,keras已成为Tensorflow的官方API。Keras means horn(角)in Greek2 MNIST手写数字识别:deep learning中的hello worldmodel = Seq原创 2017-04-14 18:34:01 · 498 阅读 · 0 评论 -
回归(Regression)
回归(Regression)1 基本介绍回归的应用:1、股票价格预测;2、自动驾驶;3、推荐算法Example:预测pokemon的Combat Power 机器学习的基本步骤:从一系列的函数集合中找到一个最符合当前训练集合的函数。简单的Linear Model形式:y=b+∑wi⋅xiy = b + \sum{w_i\cdot x_i} Trainin Data: D={(x1,y1)原创 2017-04-12 11:08:02 · 356 阅读 · 0 评论 -
梯度下降(Gradient Descent)
梯度下降(Gradient Descent)1 Gradient Descentθ∗=argminθL(θ)\theta^* = \mathop{argmin}\limits_{\theta} L(\theta)θi=θi−1−η∇L(θi−1)\theta_i =\theta_{i-1} - \eta \nabla L(\theta_{i-1})2 TipsLearning Rate 学习原创 2017-04-12 15:01:19 · 1184 阅读 · 0 评论 -
分类(Classification):Probability Generative Model
分类(Classification):Probability Generative Model1 Introduction一些应用:Credit Scoring、Medical Diagnosis、Handwritten character recognitionE.g. Pokemon Type SymbolsTraining data:D={(xi,yi)}D=\{(x_i,y_i)\},原创 2017-04-12 19:48:21 · 902 阅读 · 0 评论 -
支持向量机(Support Vector Machine)
支持向量机(Support Vector Machine)1 IntroductionSVM = hinge loss + Kernel method Hinge loss:L(f(xn),y^n)=max(0,1−y^nf(x))L(f(x_n), \hat y_n) = max(0, 1-\hat y_nf(x))2 Linear SVMstep 1:f(x)=∑iwixi+b=[wb][原创 2017-04-17 14:28:56 · 486 阅读 · 0 评论 -
迁移学习(Transfer learning)
迁移学习(Transfer learning)1 IntroductionExample:Dog/Cat Classifier现实生活中一直存在迁移学习2 Classificationlabel & label:{(xs,ys),(xt,yt)}\{(x_s,y_s),(x_t,y_t)\}Fine tuning:复制前面几层layer的实验效果,复制越多越差multitask learn原创 2017-04-17 14:28:45 · 2645 阅读 · 0 评论 -
逻辑回归(Logistic Regression)
逻辑回归(Logistic Regression)1 步骤Pw,b(C1|x)=fw,b(x)=σ(∑iwixi+b)P_{w,b}(C_1|x) = f_{w,b}(x) = \sigma(\sum \limits_{i}w_ix_i+b)L(w,b)=∏i∈C1fw,b(xi)∏i∈C2(1−fw,b(xi))L(w,b) = \prod \limits_{i \in C_1}f_{w,b}原创 2017-04-13 11:41:22 · 462 阅读 · 0 评论 -
结构化预测(Structered learning)
结构化预测(Structered learning)1 Introductionf:X→Yf:X\rightarrow Y——输入输出不一定是向量应用:语音辨识、翻译、文法剖析、位置监测、总结Unified Framework:Training:F:X∗Y→RF:X*Y \rightarrow RTesting:y~=argmaxy∈YF(x,y)\tilde y = \mathop{arg原创 2017-04-18 10:32:01 · 2871 阅读 · 0 评论 -
深度学习(Deep Learning) 4.训练Tips
深度学习(Deep Learning) 4.训练Tips1 ProblemVanashing Gradient Problem:最开始的layer具有较小的梯度,学习速度慢,接近输出层的layer具有较大的梯度,学习速度快模型参数难找:local minima、saddle point、plateau2 Solution1.Dropout:testing结果不好时 Dropout是指在模原创 2017-04-14 18:34:18 · 371 阅读 · 0 评论 -
无监督学习(unsupervised learning) 4.自编码器
无监督学习(unsupervised learning) 4.自编码器1 Auto-EncoderExample:28x28=784 →\rightarrow Encoder →\rightarrow <784Decoder:将code返回原来的训练数据将Encoder和Decoder联合学习Deep Auto-Encoder:《Reducing the dimensionality of原创 2017-04-16 15:56:55 · 524 阅读 · 0 评论