机器学习与数据挖掘 :加州理工学院公开课
leeningzzu
这个作者很懒,什么都没留下…
展开
-
机器学习与数据挖掘 第三讲 线性模型
主要引入线性模型的基本处理。 输入数据的表示(input repression) 线性分类 (liner classification) 线性回归 (linear regression) 非线性模型转换 (nonlinear transformation) 例子 利用感知机模型处理手写字体识别 提取图片中文字的特征,过滤多余信息,进行降维 利用线性模型对提取特征进行学习分类 提出了口袋算法的...原创 2019-03-04 22:33:16 · 211 阅读 · 0 评论 -
机器学习与数据挖掘 第十五讲 核方法
参考博客: 核方法原理 加州理工学院公开课:机器学习与数据挖掘_Kernal Method(第十五课) 高维映射 与 核方法(Kernel Methods) 台湾大学林轩田机器学习技法课程学习笔记3 – Kernel Support Vector Machine ...原创 2019-08-28 17:16:43 · 206 阅读 · 0 评论 -
机器学习与数据挖掘 第十四讲:SVM
涉及到一些数学原理 尚未搞清楚思路,博客随后补上 支持向量机通俗导论(理解SVM的三层境界) 台湾大学林轩田机器学习技法课程学习笔记1 台大林轩田支持向量机 ...原创 2019-06-16 17:24:19 · 173 阅读 · 0 评论 -
机器学习与数据挖掘 第十一讲:Overfitting
概念 泛化(Generalization):模型的泛化能力是指它在训练数据集上的误差是否能够接近所有可能测试数据误差的均值(Eout−Ein→0E_{out}-E_{in}\rightarrow0Eout−Ein→0)。泛化误差大致可以理解成测试数据集误差和训练数据集误差之差(Eout−EinE_{out}-E_{in}Eout−Ein)。 ① 当EinE_{in}Ein很小,EoutE...原创 2019-06-10 18:46:50 · 286 阅读 · 0 评论 -
机器学习与数据挖掘 第十讲:神经网络
本节主要讲了神经网络模型基本框架,反向传播算法。 需要动手仔细推导,下周整理好了,发到github博客。 可参考博客: 加州理工学院公开课:机器学习与数据挖掘_神经网络 一文搞定BP神经网络——从原理到应用(原理篇) ...原创 2019-06-09 21:04:35 · 239 阅读 · 0 评论 -
原 机器学习与数据挖掘 第九讲:线性模型2
非线性变换 定义 通过转换函数Φ\PhiΦ把在空间X\mathcal{X}X下无法进行线性分割的数据转换为可以进行线性分割的Z\mathcal{Z}Z空间的过程(理论上任何非线性可分数据均可转换为更高阶的线性可分的空间)。 x=(x0,…,xd)→Φ→z=(z0,……,zd~)\mathbf{x}=\left(x_{0}, \ldots, x_{d}\right) \rightarrow \Phi...原创 2019-06-09 17:51:16 · 189 阅读 · 0 评论 -
机器学习与数据挖掘 第十三讲:Validation
可参考林轩田机器学习基石课程学习笔记15 — Validation原创 2019-06-13 20:12:08 · 139 阅读 · 0 评论 -
机器学习与数据挖掘 第十二讲:Regularization
正则化 正则化主要思想:通过在原目标(代价)函数中添加惩罚项,对以控制模型复杂度,减小过拟合。 J~(w;X,y)=J(w;X,y)+αΩ(w)\tilde{J}(w ; X, y)=J(w ; X, y)+\alpha \Omega(w)J~(w;X,y)=J(w;X,y)+αΩ(w) 正则化假设集 正则化两种方法: Mathematical 函数近似过程的病态问题 Heuristic 通...原创 2019-06-13 14:47:22 · 306 阅读 · 0 评论 -
机器学习与数据挖掘 第八讲:Bias-Variance Tradeoff
偏差与方差是解释学习算法泛化性能的重要工具。 定义 在机器学习利用训练数据集学习模型时,通过最小化损失函数(Loss function)来提高模型性能。但训练数据集error最小并不能保证在测试集或外推时性能最优,则训练数据集的Loss与预测数据集的Loss之间的差异为Generalization error。 Err(X)=E[(y−f^(X))2]=E[(f(X)+ϵ−f^(X))2]=(E...原创 2019-06-05 20:36:39 · 646 阅读 · 0 评论 -
统计理论基础VC dimension
统计问题及目标 VC维的概念来自概率近似正确(PAC)学习,PAC讨论的问题: 1.所训练模型的好坏,也就是说假设的泛化误差是否在一定的范围内? 2.为了得到接近真实的假设,我们需要的训练集大小是多少? 3.假设空间的复杂度如何度量,怎样选择假设空间? 依据统计学习的目标,最好的模型假设应为训练误差一致收敛到泛化误差,且训练误差足够小。 学习理论定理: limn→∞P[supω∣R(ω)−...原创 2019-05-07 20:53:52 · 531 阅读 · 0 评论 -
机器学习与数据挖掘 第二讲 机器学习分类与可能性
第二讲 机器学习分类与可能性 分类 目前多按照数据标记分类 输出空间 二元分类 多元分类 (离散为分类) 回归分析 (连续为回归) 结构化学习 数据标记 监督 非监督 半监督 增强学习 (反馈是关键) 目标函数 Batch 填鸭式 online 老师教学 active 主动问题 机器学习的可能性 重点关注预测未知数据的能力,即泛化能力的本质 Hoef...原创 2019-03-02 00:41:12 · 207 阅读 · 0 评论 -
机器学习与数据挖掘 第一讲 定义与PLA算法
加州理工学院公开课:机器学习与数据挖掘 第一讲 机器学习的实质 机器学习的组成部分 感知机模型举例 机器学习的定义与本质 Machine learning Tom M. Mitchell定义:A computer program is said to learn from experience E with respect to some class of tasks T and perf...原创 2019-03-01 22:07:18 · 387 阅读 · 0 评论 -
机器学习和数据挖掘 第五讲 训练与测试
本章节有些概念还没想清楚用途和目的,暂时参考他人博客。 机器学习和数据挖掘(5):训练与测试 Coursera台大机器学习课程笔记4 – Training versus Testing 机器学习基础(林軒田)笔记之五 ...原创 2019-03-05 00:45:00 · 216 阅读 · 0 评论 -
机器学习与数据挖掘 第四讲 误差和噪声
噪音 输入特征不准确 输出错误 目标分布 在有噪音的情况下yyy的输出带有了概率性,即yyy服从如下分布:X∼P(X)X ∼P(X)X∼P(X)y∼P(y∣X)y ∼P(y|X)y∼P(y∣X)P(y∣x)=f(x)+noiseP(y|x)=f(x)+noiseP(y∣x)=f(x)+noise,X条件下条件下条件下Y$ 出现的概率分布。 P(y∣x)P(y|x)P(y∣x)为目标分布,进而可...原创 2019-03-05 00:29:39 · 358 阅读 · 0 评论 -
机器学习与数据挖掘 第十六讲 径向基函数
机器学习技法笔记(6)-RBF Network(径向基函数网络) 台湾国立大学(林轩田)《机器学习技法》(第14讲)Radial Basis Function Network(径向基函数) 台湾大学林轩田机器学习技法课程学习笔记14 – Radial Basis Function Network ...原创 2019-08-30 15:23:20 · 174 阅读 · 0 评论