机器学习
文章平均质量分 83
王先生的副业
屌丝,爱做梦的屌丝。
展开
-
机器学习笔记——贝叶斯分类器(II)极大似然估计
前提估计类条件概率的一种常用策略就是先假定其具有某种确定的概率分布形式,在基于训练样本进行估计。处理方式关于类别cc的类条件概率为P(x∣c)P(\mathbf{x}\mid c),假设P(x∣c)P(\mathbf{x}\mid c)具有确定的形式,而且被参数向量θc\boldsymbol{\theta_c}唯一确定。任务利用训练集合DD估计参数θc\boldsymbol{\原创 2018-01-08 21:55:16 · 798 阅读 · 0 评论 -
机器学习笔记——贝叶斯分类器(I)贝叶斯决策论
基本概念贝叶斯决策论:对于分类任务来说,在所有的相关概率都已知的理想情形下,贝叶斯决策论考虑如何基于这些概率和误判损失来选择最优的类别标记。基本原理假设有NN中可能的类别标记,即Y={c1,c2,…,cN}\mathcal{Y}=\{c_1,c_2,\dots,c_N\},λij\lambda_{ij}是将一个真实标记为cjc_j的样本误分类为cic_i所产生的损失。基于后原创 2018-01-06 21:04:09 · 443 阅读 · 0 评论 -
先验概率和后验概率
先验概率事件发生的预判概率,可以是基于历史数据的统计,也可以是由背景常识得出,也可以由人的主观观点给出。一般都是单独事件概率如:P(x),P(y)P(x),P(y),条件概率满足先验概率的定义。后验概率事件发生后反向条件概率,或者说是基于先验概率求得的反向条件概率,概率形式和条件概率相同。条件概率一个事件发生后另一个事件发生的概率,一般形式为P(x∣y)P(x\mid y),表示在yy已经发生的条件原创 2018-01-05 10:13:52 · 361 阅读 · 0 评论 -
机器学习笔记——支持向量机(V)支持向量回归
回归问题对于给定的样本D={(x1,y1),(x2,y2),…,(xm,ym)},yi∈RD=\left\{(\mathbf{x}_1,y_1),(\mathbf{x}_2,y_2),\dots,(\mathbf{x}_m,y_m)\right\},y_i\in\mathbb{R} 我们希望习得一个回归模型,形如f(x)=wTx+bf(\mathbf{x})=\mathbf{w}^T\mathbf原创 2018-01-04 17:08:34 · 2461 阅读 · 0 评论 -
机器学习笔记(XIX)支持向量机(I)基本概念
支持向量机(Support Vector Machine)前提训练集:D={(x1,y1),(x2,y2),…,(xm,ym)},yi∈{−1,+1}D=\left\{(\mathbf{x}_1,y_1),(\mathbf{x}_2,y_2),\dots,(\mathbf{x}_m,y_m)\right\},y_i\in\left\{-1,+1\right\}目标在样本空间中找到一个超平面,将不同类原创 2017-12-29 10:10:44 · 377 阅读 · 0 评论 -
机器学习笔记(XVIII)神经网络(V)全局最小局部极小
训练集上的误差使用EE表示神经网络在训练集合上的误差,则EE是关于连接权值w\mathbf{w}和阈值θ\theta的函数。最优对w∗\mathbf{w}^*和θ∗\theta^*若存在ϵ>0\epsilon\gt0使得, ∀(w;θ)∈{(w;θ)∣||(w;θ)−(w∗;θ∗)||≤ϵ},\forall(\mathbf{w};\theta)\in\left\{(\mathbf{w};\the原创 2017-12-28 21:25:59 · 2254 阅读 · 0 评论 -
机器学习笔记——支持向量机(IV)软间隔
前提在实际的应用中,训练样本在样本空间或者特征空间中可能很难找到一个合适的核函数使得训练样本在特征空间中线性可分。即使找到了一个合适的核函数使得样本在样本空间中线性可分,我们也无法判断这个结果是不是由于过拟合造成的。软间隔硬间隔所谓硬间隔就是非黑即白,即所有样本都必须划分正确。软间隔概念相比于硬间隔,软间隔允许存在灰色地带,也就是允许某些样本不满足约束条件: yi(wTxi+b)≥1.y_i\l原创 2017-12-29 20:30:28 · 557 阅读 · 0 评论 -
机器学习笔记——支持向量机(II)核函数
从低维空间映射到高维空间异或问题式线性不可分的,但是可以通过把它映射到高维度空间实现线性可分。 令ϕ(x)\phi(\mathbf{x})表示将x\mathbf{x}后的特征向量。于是,在特征空间中划分超平面所对应的模型可以表示为: f(x)=wTϕ(x)+bf(\mathbf{x})=\mathbf{w}^T\phi(\mathbf{x})+b 于是prototypeprototype可原创 2018-01-03 16:14:28 · 695 阅读 · 0 评论 -
机器学习笔记(XVII)神经网络(IV)BP算法和BP神经网络的一些问题
累计BP和标准BP标准BP算法每次仅仅针对一个训练样例进行更新更新权值和阈值,参数更新非常频繁,而且不同样例的更新效果可能出现“抵消”的现象。累计BP算法累计误差: E=1m∑k=1mEkE=\dfrac{1}{m}\sum_{k=1}^{m}E_k 直接针对累计误差最小化,再读取整个训练集DD一遍之后才对参数进行更新,对参数更新的频率会比标准BP算法低好多。 但是累计误差在下降到一定程度之后原创 2017-12-27 21:20:46 · 646 阅读 · 0 评论 -
BP算法公式推导
前提训练样例:(xk,yk)(\mathbf{x}_k,\mathbf{y}_k), 神经网络输出:y^k=(y^k1,y^k2,…,y^kℓ)\hat{\mathbf{y}}_k=(\hat{y}_{1}^{k},\hat{y}_{2}^{k},\dots,\hat{y}_{\ell}^{k})其中:y^kj=f(βj−θj)\hat{y}_{j}^{k}=f(\beta_j-\theta_j)原创 2017-12-27 17:47:19 · 954 阅读 · 0 评论 -
机器学习笔记——贝叶斯分类器(III)朴素贝叶斯分类器
属性条件独立性假设贝叶斯定理: P(c∣x)=P(c)P(x∣c)P(x)P(c\mid\mathbf{x})=\dfrac{P(c)P(\mathbf{x}\mid c)}{P(\mathbf{x})} 此时后验概率P(c∣x)P(c\mid\mathbf{x})比较难以估计,由于类条件概率P(x∣c)P(\mathbf{x}\mid c)是所有属性上的联合概率,难以从有限的训练样本原创 2018-01-17 15:51:29 · 466 阅读 · 0 评论 -
机器学习笔记_贝叶斯分类器(IV)_半朴素贝叶斯分类器
为什么需要半朴素贝叶斯分类器1:后验概率P(c∣x)P(c\mid\mathbf{x})计算起来比较困难。 2:属性条件独立性假设在现实任务中往往很难成立。半朴素贝叶斯分类器的基本思想适当考虑一部分属性之间的相互依赖信息,从而既不需要进行联合概率计算,又不至于彻底忽略比较强的属性依赖关系。常用策略_”独依赖估计”方法:假设每个属性在类别之外最多仅依赖于一个其他属性原创 2018-01-19 17:29:11 · 4010 阅读 · 0 评论 -
一些特征选择方法(II)
LDAPCA参考:http://blog.codinglabs.org/articles/pca-tutorial.html 假设我们只有a和b两个字段,那么我们将它们按行组成矩阵XXX: X=(a1b1a2b2⋯⋯ambm)X=(a1a2⋯amb1b2⋯bm)X=\begin{pmatrix} a_1 & a_2 & \cdots & a_m \\ b_1 & b_2 & \...原创 2018-05-21 15:01:08 · 409 阅读 · 0 评论 -
一些特征选择的方法(I)
卡方检验基本概念卡方检验就是统计样本的实际观测值与理论推断值之间的偏离程度,实际观测值与理论推断值之间的偏离程度就决定卡方值的大小,卡方值越大,越不符合;卡方值越小,偏差越小,越趋于符合,若两个值完全相等时,卡方值就为0,表明理论值完全符合。 假设有两个分类变量XXX和YYY,其值域都是{x1,x2}{x1,x2}\{x_1,x_2\},计算XXX和YYY之间的相关性需要先建立一个零...原创 2018-05-20 22:19:53 · 552 阅读 · 0 评论 -
Stacking集成学习法
介绍当训练数据很多时,一种更为强大的结合策略就是使用“学习法”,即通过另一个学习器来进行结合。Stacking 是学习法的典型代表。这里我们把个体学习器称为初级学习器,用于结合的学习器称为次级学习器或者元学习器。工作原理Stacking先从初始数据集训练出初级学习器,然后“生成”一个新数据集用于训练次级学习器。在这个数据集中,初级学习器的输出被当成样例输入特征,而样本的标记仍然被当...原创 2018-05-20 15:33:28 · 650 阅读 · 0 评论 -
二分类问题混淆矩阵和相关参数
混洗矩阵预测的类+-实际的类+f++(TP)f++(TP)f_{++}(TP)f+−(FN)f+−(FN)f_{+-}(FN)-f−+(FP)f−+(FP)f_{-+}(FP)f−−(TN)f−−(TN)f_{--}(TN)相关术语:TPFN真正(true positive ,TP)(true positive&nbsp...原创 2018-05-20 09:39:28 · 2224 阅读 · 0 评论 -
原形聚类-K_Means
原形聚类“原形”是指样本空间中具有代表性的点 原形聚类也叫“基于原形的聚类”,此类算法假设聚类结构能通过一组原形刻画,在现实聚类任务中极为常用。K_Means对给定样本集合D={xi}mi=1D={xi}i=1mD=\{\mathbf{x}_i\}_{i=1}^{m},“K均值”(K_Means)算法针对聚类所得簇划分C={Cj}kj=1C={Cj}j=1kC=\{C_j\}_{...原创 2018-05-19 19:24:24 · 250 阅读 · 0 评论 -
Bagging和随机森林
Bagging基本概念又称袋装(bagging)或者自助聚集(boot strap aggregating) 是一种根据均匀概率分布从数据集中重复采样(有放回)的技术。每个自助采样的样本集都和原数据集一样大。 在又放回的抽样中,如果抽样的个数和原数据集的大小一致,则自助样本DiDiD_i中会有63%63%63\%的原训练数据,因为每一个样本抽到DiDiD_i的概率为1−(1−1N)...原创 2018-04-20 22:17:51 · 267 阅读 · 0 评论 -
集成学习基本概念
个体与集成集成学习(ensemble learningensemble learningensemble\space learning)通过构建并结合多个学习器来完成学习任务,有时候也被称为多分类器系统(multi−classifier systemmulti−classifier systemmulti-classifier \space system...原创 2018-04-20 20:02:10 · 734 阅读 · 0 评论 -
机器学习笔记_$EM$算法
适用范围假设训练样本的属性变量是不完整的隐变量令XX\mathbf{X}表示已经观测的变量集合,ZZ\mathbf{Z}表示隐变量集,ΘΘ\Theta表示模型参数.如果对ΘΘ\Theta做最大似然估计,则应当最大化对数似然 LL(Θ∣X,Z)=lnP(X,Z∣Θ)LL(Θ∣X,Z)=lnP(X,Z∣Θ)LL(\Theta\mid\mathbf{X},\mathbf{Z})=\l...原创 2018-03-27 10:14:35 · 183 阅读 · 0 评论 -
机器学习笔记——贝叶斯分类器(V)贝叶斯网络
概念贝叶斯网络(Bayesian network),又称“信念网络”(belief network),它借助于有向无环图(Directed Acyclic Graph)来刻画属性之间的依赖关系。并且使用条件概率表来描述属性的联合概率分布。组成一个贝叶斯网络BB由结构GG和参数Θ\Theta两个部分构成,即B=⟨G,Θ⟩B=\langle G,\Theta\rangle.其中原创 2018-01-20 17:28:38 · 3735 阅读 · 1 评论 -
机器学习笔记(XI)决策树(I)基本流程和划分选择
基本流程决策树一般的,一棵决策树包括包含一个根结点,若干个内部结点和若干个叶结点。根结点包括样本全集 从根结点到每个叶子结点的路径对应一个判定测试序列。内部结点一个测试属性叶结点决策结果目的产生一棵泛化能力强的,处理未预见示例能力强的决策树,基本流程遵循简单且直观“分而治之”(divide-and-conquerdivide\text{-}and\text{-}conquer)基本算法算法中的三种原创 2017-12-19 11:25:40 · 1022 阅读 · 0 评论 -
机器学习笔记——支持向量机(II)对偶问题(I)
前提⎧⎩⎨⎪⎪minw,b12||w||2s.t. yi(wTxi+b)≥1,i=1,2,…,m.(prototype)\left\{\begin{aligned}&\mathop{\min}_{\mathbf{w},b}\dfrac{1}{2}{||\mathbf{w}||}^2\\&s.t.\space y_i(\mathbf{w}^T\mathbf{x}_i+b)\geq1,i=1,2原创 2018-01-02 20:54:15 · 374 阅读 · 0 评论 -
机器学习笔记(XVI)神经网络(III)误差逆传播(BP)算法
BP网络定义一般是指用BP算法训练的多层前反馈神经网络, BP=(error BackPropagation)BP=(error\space BackPropagation)主要用途用于前馈神经网络BP算法定义给定训练集合: D={(x1,y1),(x2,y2),…,(xm,ym)},xi∈Rd,yi∈RℓD=\left\{(\mathbf{x}_1,\mathbf{y}_1),(\mathb原创 2017-12-26 22:47:36 · 515 阅读 · 0 评论 -
Matrix calculus(矩阵微积分)(前四节)
原文地址:https://en.wikipedia.org/wiki/Matrix_calculus 注:不要把它和几何运算或者是向量运算混淆前言:在数学中,矩阵微积分是进行多变量微积分的一种特殊符号,特别是在矩阵的空间上。 它将关于许多变量的单个函数的各种偏导数和/或关于单个变量的多变量函数的偏导数收集到可以被视为单个实体的向量和矩阵中。 这大大简化例如找到多元函数的最大值或最小值,以及求解微分翻译 2017-12-21 17:20:41 · 8812 阅读 · 0 评论 -
机器学习笔记(VI)线性模型(II)多维最小二乘法
数据集是 D={(x1,y1),(x2,y2),…,(xm,ym)}其中xi=(xi1;xi2;…;xid),yi∈RD=\left\{(\mathbf{x_1},y_1),(\mathbf{x_2},y_2),\dots,(\mathbf{x_m},y_m)\right\}\\\text{其中}\\\mathbf{x_i}=(x_{i1};x_{i2};\dots;x_{id}),y_i\原创 2017-12-12 22:37:09 · 2604 阅读 · 0 评论 -
Latex 如何画出决策树示意图
以《机器学习》第85页的图为例:使用包:\usepackage{tikz}代码:\documentclass[UTF8]{ctexart}\usepackage{tikz}\usetikzlibrary{shapes.geometric, arrows}\begin{document}\thispagestyle{empty}% 定义基本形状\tikzstyle{results}=[el原创 2017-12-20 22:00:26 · 6429 阅读 · 0 评论 -
机器学习笔记(V)线性模型(I)一维最小二乘法
基本形式给定由dd个属性描述的示例x=(x1;x2;…;xd)x=(x_1;x_2;\dots;x_d),其中xix_i是x\mathbf{x}在第ii个属性上的取值,线性模型试图学得一个线性的组合来进行预测的函数 即: f(x)=w1x1+w2x2+⋯+wdxd+bf(\mathbf{x})=w_1x_1+w_2x_2+\dots+w_dx_d+b 向量形式为: f(x)=wTx+b原创 2017-12-12 10:32:38 · 624 阅读 · 0 评论 -
Latex 绘制函数图像
前言又是关于机器学习那本书里的插图问题,里面有一些函数图形。现在看看怎么使用latex把它们画出来。 这就是《机器学习》周志华,第98页的两个函数图像,貌似树上的坐标轴是不正确的,第二张图的横坐标应该扩大10倍,才有那种效果。使用到的包:\usepackage{tikz}示例代码:\documentclass[11pt,UTF8]{ctexart}\usepackage{tikz}\begin原创 2017-12-20 18:17:42 · 24956 阅读 · 0 评论 -
机器学习笔记(IV)模型评估与选择(III)
查准率,查全率与F1F1对于二分类问题,可以将样例根据真实的类别与学习器预测类别的组合分为真正例(TP true positive)、假正例(FP false positive)、真反例(TN true nagative)、假反例(FN false negative)。 显然 TP+FP+TN+FN=TP+FP+TN+FN=样例总数分类结果混淆矩阵 真实情况原创 2017-12-11 17:26:24 · 1071 阅读 · 0 评论 -
机器学习笔记(XIII)决策树(III)连续与缺失值
连续值处理对于连续属性的可取数目不再有限,因此,不能直接根据连续属性的可取值来对结点进行划分。连续离散化之二分法具体做法对于给定的样本集DD和连续属性aa,假定aa在DD上出现了nn个不同的取值,将这些值从小到大进行排序,记为{a1,a2,…,an}\{a^1,a^2,\dots,a^n\}。基于划分点tt可将DD分为子集D−tD_{t}^{-}和D+tD_{t}^{+}, 若ai∈D−ta_i\原创 2017-12-19 23:06:54 · 1416 阅读 · 1 评论 -
机器学习笔记(III)模型评估与选择(II)
调参和最终模型调参大多数学习算法都有参数(parameter)需要设定,参数设置不同,学得的模型的性能往往也不同,在进行模型评估和选择时,除了要对适用学习算法进行选择,还需要算法的参数进行设定,这就是通常所说的“参数调节”或者简称“调参”(parameter tuning)一般选择参数的方式对每个参数选定一个范围和步长的变化,这实际上是一种在计算开销和性能估计之间进行折中的结果原创 2017-12-11 14:32:26 · 231 阅读 · 0 评论 -
机器学习笔记(XII)决策树(II)剪枝处理
剪枝(pruning)目的剪枝操作是决策树学习算法对付“过拟合”的主要手段。因为有时候决策树的分支过多,导致训练集合把自身的一些特点当作所有数据都具有的一般性质而导致过拟合。因此主动剪掉一些分支来降低过拟合的风险。预剪枝(prepruning)具体做法指的是在决策树的生成过程中,对每个结点在划分前进行估计,如果当前结点的划分不能带来决策树泛化性能的提升,则停止划分当前结点并且标记为叶子节点。优缺点优原创 2017-12-19 17:13:06 · 570 阅读 · 0 评论 -
机器学习笔记(PART II)模型的评估和选择(I)
经验误差和过拟合错误率:分类错误的样本数占样本总数的比例 如果在mm个样本中有aa个样本分类错误则错误率E=a/mE=a/m;精度:精度=1-错误率 acc=1−a/macc=1-a/m训练误差(经验误差):学习器在训练集上的误差泛化误差学习区在新样本上的误差过拟合(过配)学习能力过于强大,以至于把一些不是太一般的特性都学到了欠拟合(欠配)学习能力低下评估方法基本思想使用测试误差来近似泛化误差注原创 2017-12-10 23:33:12 · 491 阅读 · 0 评论 -
机器学习笔记(VII)线性模型(III)对数几率回归和极大似然估计
背景知识常见回归模型线性回归(linear regression):y=wTx+b(1)y=\mathbf{w}^T\mathbf{x}+b\tag{1} 但是有时候预测值会逼近y\mathbf{y}的衍生值比如输出标记在指数尺度上变化。对数线性回归(log-linear regression):lny=wTx+b(2)\ln{y}=\mathbf{w}^T\mathbf{x}+b\tag{原创 2017-12-13 18:15:35 · 2532 阅读 · 4 评论 -
Matrix calculus(矩阵微积分)(第二部分,布局约定)
原文地址: https://en.wikipedia.org/wiki/Matrix_calculus#Other_matrix_derivatives其他矩阵求导(存在争议)有三种矩阵的导数我们目前没有看到,他们是向量对矩阵求导,矩阵对向量求导,矩阵对矩阵求导。他们没有统一的符号,也没有统一的应用。对于和向量相关的矩阵两种矩阵导数,可以被看作是一个只有一列的矩阵和另一个矩阵做相互运算。鉴于这个原翻译 2017-12-22 11:34:33 · 4819 阅读 · 1 评论 -
机器学习笔记(X)线性模型(VI)类别不平衡问题
类别不平衡问题分类学习方法的问题假设正类和反类的样例数目相当,但是有时候样例数量的差别较大,比如正例样本有998个,而反例样本只有2个,此时学习方法如果一直返回正例则预测的准确度会高达99.8%99.8\%,但是这样的学习器没有任何价值。类别不平衡的定义class-imbalanceclass\text{-}imbalance是指分类任务中不同类别的训练样例的数目差别非常大的情况假设假定正类样本较少原创 2017-12-17 19:35:21 · 449 阅读 · 0 评论 -
机器学习笔记(IX)线性模型(V)多分类学习
拆解法多分类问题的一般方法,是将多分类任务拆分为多个二分类任务求解,这里设有NN个类别:C1,C2,…,CNC_1,C_2,\dots,C_N具体做法1:将多分类问题拆解为若干个二分类问题 2:为每个二分类问题训练一个分类器 3:得出每个二分类问题的预测结果 4:对这些二分类问题的结果进行集成最后得到多分类结果拆分策略给定数据集: D={(x1,y1),(x2,y2),…,(xm,ym)},原创 2017-12-16 23:57:40 · 610 阅读 · 0 评论 -
矩阵向量求导(Matrix calculus)
原文地址:https://en.wikipedia.org/wiki/Matrix_calculus#Other_matrix_derivatives翻译:part1:http://blog.csdn.net/uncle_gy/article/details/78861467part2:http://blog.csdn.net/uncle_gy/article/details/78871515par原创 2017-12-23 11:54:18 · 33662 阅读 · 6 评论 -
Matrix calculus(矩阵微积分)关于矩阵求导
标量对矩阵求导部分:情形表达式分子布局分母布局aa不是关于X\mathbf{X}的函数∂a∂X=\dfrac{\partial a}{\partial \mathbf{X}}=0T\mathbf{0}^T0\mathbf{0}aa不是关于X\mathbf{X}的函数,u=u(x),u=u(x)∂au∂X\dfrac{\partial{au}}{\partial \mathbf{X}}a∂u∂Xa翻译 2017-12-25 15:45:29 · 1410 阅读 · 0 评论