机器学习
LandscapeMi
这个作者很懒,什么都没留下…
展开
-
机器学习:CRF:条件随机场
略原创 2016-07-30 21:43:40 · 306 阅读 · 0 评论 -
机器学习:主题模型:LSA
空间向量模型的缺点http://blog.csdn.net/pipisorry/article/details/42560331Term-Document矩阵 上图是一个Term-Document矩阵,X代表该单词出现在对应的文件里,星号表示该词出现在查询(Query)中,当用户输入查询”IDF in computer-based information look up” 时,用户是希望查找与信息原创 2016-05-31 14:00:12 · 2109 阅读 · 0 评论 -
机器学习:贝叶斯_2:朴素贝叶斯
风险函数设损失函数为L(Y,f(X))L(Y,f(X)), 损失函数小,模型越好;设模型的输入输出(X,Y)(X, Y)是随机变量,遵循联合分布P(X,Y)P(X, Y) ,损失函数的期望 Rexp(f)=Ep[L(Y,f(X))]=∫x∗yL(y,f(x))P(x,y)dxdyR_{exp}(f)=E_p[L(Y,f(X))]=\int_{x*y} L(y,f(x)) P(x,y)dxdy上原创 2016-04-06 22:15:17 · 534 阅读 · 0 评论 -
机器学习:EM算法
潜在变量模型k均值聚类混合高斯模型混合高斯模型=高斯分布的线性叠加高斯分布的MLEμ=1n∑ixi\mu=\frac{1}{n}\sum_i x_i σ2=1n∑i(xi−μ)2\sigma^2=\frac{1}{n}\sum_i(x_i-\mu)^2设随机变量X由K个高斯分布混合而成,取各个高斯分布的概率是ϕ1,ϕ2,.....,ϕk\phi_1,\phi_2,.....,\phi_k;原创 2016-04-15 23:52:29 · 429 阅读 · 0 评论 -
机器学习:贝叶斯_3:贝叶斯网络
有向无环图特殊的贝叶斯网络结点形成的链式网络,马尔科夫链Ai+1只和Ai有关系,与其他无关A_{i+1}只和A_{i}有关系,与其他无关贝叶斯网络判定条件独立-1在c给定的条件下,a, b是被阻断,是独立的。tail-to-tail贝叶斯网络判定条件独立-2head-to-tail在c给定的条件下,a, b是被阻断,是独立的。 贝叶斯网络判定条件独立-3head-to-head原创 2016-04-10 16:45:52 · 422 阅读 · 0 评论 -
机器学习:贝叶斯_1:贝叶斯估计
β\beta 密度函数β\beta密度函数可以用于0~~1直接的连续随机变量p(r)=Γ(α+β)Γ(α)Γ(β)γα−1(1−γ)β−1p(r)=\frac{\Gamma(\alpha+\beta)}{\Gamma(\alpha)\Gamma(\beta)}\gamma^{\alpha-1}(1-\gamma)^{\beta-1}Γ(Z)是\Gamma(Z)是 γ\gamma 函数 函数原创 2016-03-28 00:12:08 · 439 阅读 · 0 评论 -
机器学习:贝叶斯总结_4:分类
概率生成模型 该模型主要对p(y|x)建模,通过x来预测y。在建模的过程中不需要关注联合概率分布。只关心如何优化p(y|x)使得数据可分。通常,判别式模型在分类任务中的表现要好于生成式模型。但判别模型建模过程中通常为有监督的,而且难以被扩展成无监督的。 Gaussian mixture model and other types of mixture model Hidden Markov m原创 2016-04-04 17:48:03 · 314 阅读 · 0 评论 -
机器学习:贝叶斯总结_3:线性回归和贝叶斯回归
线性回归的基函数模型y(x,w)=w0+w1x1+......+wDxDy(x,w)=w_0+w_1x_1+......+w_Dx_D y(x,w)=w0+∑M−1j=1wjϕj(x)y(x,w)=w_0+\sum_{j=1}^{M-1}w_j \phi_j(x) ϕj(x):是基函数\phi_j(x):是基函数基函数:多项式;高斯;sigmoid函数基函数还可以是傅里叶基函数最大似然与原创 2016-04-03 15:39:40 · 3846 阅读 · 0 评论 -
机器学习:贝叶斯总结_2:概率分布
伯努利分布Bern(x|μ)=μx(1−μ)1−xBern(x| \mu)=\mu^x(1-\mu)^{1-x}μML=mN\mu_{ML}=\frac{m}{N} : 正面朝上的概率,是数据集中正面朝上的观测所占的比例Beta分布共轭性:先验和后验具有相同的形式;先验概率正比于似然函数,则后验概率和先验概率具有相似的形式。∫10Beta(μ|a,b)dμ=1\int _0^1 Beta(原创 2016-04-02 23:34:46 · 631 阅读 · 0 评论 -
机器学习:贝叶斯总结_1:概述
1.1 多项式的拟合ww的线性函数; —— 线性模型 y(x,w)=w0+w1x+w2x2+...+wMxM=∑Mj=0wjxjy(x, w)=w_0+w_1x+w_2x^2+...+w_Mx^M=\sum_{j=0}^M w_j x^j拟合数据,最小化误差函数E(w)=12∑Nn=1{y(xn,w)−tn}2E(w)=\frac{1}{2}\sum_{n=1}^N \{y原创 2016-03-28 09:24:03 · 542 阅读 · 0 评论 -
机器学习笔记_数学基础_7-凸优化理论
优化问题minf0(x)min f_0(x) subjecttofi(x)≤bi,i=1,⋯,msubject to f_i(x) \leq b_i, \quad i=1,\cdots,m x=(x1,⋯,xn)x=(x_1,\cdots,x_n) 称为优化变量 f0f_0称为目标函数 fif_i称为约束函数最小二乘问题 (无约束条件;目标函数是若干平和)minf0(x)=||Ax−b|原创 2015-11-20 10:50:03 · 4661 阅读 · 0 评论 -
机器学习:EM算法_续
EM算法的推导给定训练样本是x(1),x(2),...,x(m){x^{(1)},x^{(2)},...,x^{(m)}},样本独立,寻找每个样例的隐含类别zz,使得p(x,z)p(x, z)最大 p(x,z)p(x,z) 的最大似然估计:l(θ)=∑mi=1logp(x;θ)l(\theta) = \sum_{i=1}^m logp(x;\theta) =∑mi=1log∑zp(x,z;原创 2016-06-04 15:25:46 · 270 阅读 · 0 评论 -
机器学习:主题模型:PLSA
http://blog.csdn.net/pipisorry/article/details/42560877 * 概率潜在语义分析简称pLSA(Probabilisticlatent semantic analysis) * 概率潜在语义分析与标准潜在语义分析的不同是,标准潜在语义分析是以共现表(就是共现的矩阵)的奇异值分解的形式表现的,而概率潜在语义分析却是基于派生自LCM的混合矩阵原创 2016-05-31 14:39:13 · 784 阅读 · 0 评论 -
机器学习:HMM:算法
学习算法已知观测序列O=(o1,...,oT)O=(o_1,...,o_T), 估计模型λ=(A,B,π)\lambda = (A,B,\pi) 的参数,使得在该模型下观测序列概率 P(O|λ)P(O|\lambda); 极大似然估计的方法1. 监督学习给定 O 和 I已知: SS 个长度 相同的观测序列和对应的状态序列 {(O1,T1),(O2,T2),...,(OS,TS)}\{(O_1,原创 2016-07-30 21:42:43 · 996 阅读 · 0 评论 -
机器学习:HMM:基础
1. HMM的概念时序概率模型,生产不可观测的状态序列和观测序列定义λ=(A,B,π)\lambda = (A, B ,\pi)Q= 状态集合={q1,q2,...,qN}\{ q_1, q_2, ... ,q_N\}……….N:状态数V= 可能的观测集合= {v1,v2,...,vM}\{v_1,v_2, ... , v_M\}………. M:观测数I=长度为T的状态原创 2016-07-30 19:48:32 · 445 阅读 · 0 评论 -
机器学习:LDA
待继原创 2016-07-26 20:06:38 · 332 阅读 · 0 评论 -
机器学习:LDA_数学基础_6:MCMC:Dirichlet分布
1. 二元分布x∈{0,1}x\in \{0, 1\} ; 0<=μ<=1 0 <=\mu < =1 Bern(x|μ)=μx(1−μ)1−xBern(x|\mu) = \mu^x(1-\mu)^{1-x}设数据集合是 D={x1,...,xN}D=\{x_1, ... ,x_N\} ,且每次观测都是从 p(x|μ)p(x|\mu) 中得到;则似然函数是p(D|μ)=∏Nn=1p(xn|原创 2016-07-19 10:22:02 · 528 阅读 · 0 评论 -
机器学习:LDA_数学基础_5:变分推断:变分推断部分
最优化量是一个泛函时,需要研究所有的输入函数,找到最大化或者最小化泛函的函数就是变分变分近似的过程:限制需要最优化算法搜索的函数的范围(二次函数,或者,固定基曲线函数的线性组合)变分推断符号假设ZZ:所有的潜在变量和参数组成的集合XX:所有的观测变量的集合确定了联合分布p(X,Z)p(X,Z)目标:找到后验概率分布 p(Z|X)p(Z|X), 验证模型证据p(X)p(X) 的近似公式原创 2016-06-26 22:18:21 · 1593 阅读 · 0 评论 -
机器学习:LDA_数学基础_3:贝叶斯数学:Beta和Dirichlet
Gamma分布Γ(x)=∫∞0tx−1e−tdt\Gamma(x)=\int_0^{\infty} t^{x-1}e^{-t}dtΓ(n)=(n−1)!\Gamma(n) = (n-1)!Γ(x+1)=xΓ(x)\Gamma(x+1) =x \Gamma(x)Beta分布二项分布 p(x|θ)=θx(1−θ)1−xp(x|\theta)=\theta^x(1-\theta)^{1-x}B原创 2016-06-12 14:13:32 · 287 阅读 · 0 评论 -
机器学习:LDA_数学基础_4:变分推断:EM基础
导论参数估计的方法给定样本{x1,...xn}\{x_1,...x_n\},求参数 θ\theta 极大似然估计极大后验估计若存在隐变量 EM算法采样变分选择一个容易计算的近似分布q(x)q(x),使其尽可能的接近后验分布p(x|D)p(x|D)变分法分布的相似度 假定p∗(x)p^*(x)是真实(难解的)分布,q(x)q(x)是某个近似(容易解得)原创 2016-06-26 06:56:34 · 2564 阅读 · 0 评论 -
机器学习:LDA_数学基础_2:贝叶斯数学:先验分布的选择
先验信息确定先验分布主观概率 对事件似然比专家意见历史资料无信息先验分布贝叶斯假设 离散均匀分布有限区间的均匀分布广义分布共轭先验分布在已知样本的情况下,为了理论的需要,常常选择参数的分布为共轭先验分布最大熵先验分布无信息,意味着不确定性最大,故无信息先验分布应是熵最大所对应的分布共轭先验下的后验分布二项分布后验分布式二项分布多项分布的后验是狄利克雷分布最大似然估计原创 2016-06-10 14:28:37 · 5170 阅读 · 0 评论 -
机器学习:LDA_数学基础_1:贝叶斯数学_基础
参数估计的方法 矩估计最大似然估计最小二乘法贝叶斯估计贝叶斯观点贝叶斯公式全概率公式: B1,.....,BnB_1,.....,B_n是样本空间的一个完备事件群 p(A)=p(∑ni=1ABi)=∑ni=1p(A|Bi)p(Bi)p(A)=p(\sum_{i=1}^n AB_i)=\sum_{i=1}^np(A|B_i)p(B_i) 2.贝叶斯公式 p(Bi|A)=p(A|Bi原创 2016-06-08 19:18:14 · 647 阅读 · 0 评论 -
机器学习笔记_ SVM
待续原创 2016-01-05 00:29:05 · 258 阅读 · 0 评论 -
机器学习笔记_数学基础_1-微积分
微积分极限导数 : 一阶导数;二阶倒数;微分中值定理 (1)罗尔定理(倒数为零的点是驻点) (2)拉格朗日中值定理泰勒公式 f(x)=f(x0)+f′(x0)(x−x0)+f”(x0)2!(x−x0)2+…+f(x)=f(x_0)+f’(x_0)(x-x_0)+\frac{f”(x_0)}{2!}(x-x_0)^2 +…+原创 2015-11-17 21:28:14 · 910 阅读 · 0 评论 -
机器学习笔记_数学基础_2-概率论
概率论概率: P(X)∈[0,1]=>离散;连续P(X) \in [0,1] => 离散;连续 累积分布函数 Φ(x)=P(x)\Phi(x)=P(x)原创 2015-11-18 00:28:59 · 683 阅读 · 0 评论 -
机器学习笔记_ 数值最优化_1:最优化条件
无约束问题的极值条件minf(x);x∈Rnmin \quad f(x) ; \quad x \in R^n最优性条件 -全局最优;局部最优; -局部最优(一阶必要条件): 设x∗是f(x)的一个局部极小点的条件是g(x∗)=0x^*是f(x)的一个局部极小点的条件是g(x^*)=0 -局部最优(二阶必要条件): 设x∗是f(x)的一个局部极小点的条件是G(x∗)=原创 2015-11-23 17:01:22 · 1071 阅读 · 0 评论 -
机器学习笔记_ 数值最优化_2:最优化算法
导数的算法梯度下降牛顿方法:二阶展开(无需计算步长)φ=f(xk)+f′(xk)(x−xk)12f′′(xk)(x−xk)2+R2(x)\varphi=f(x_k)+f^{'}(x_k)(x-x_k)_\frac{1}{2}f^{''}(x_k)(x-x_k)^2+R_2(x) => φ′(x)≈f′(xk)+f′′(xk)(x−xk)\varphi ^{'}(x) \approx f^{'原创 2015-11-24 01:20:36 · 1480 阅读 · 0 评论 -
机器学习笔记_降维_1:LDA(fisher)
LDA分类器(2分类问题)存在超平面将两类数据分开,存在旋转向量,将两类数据投影到1维,并且分开.通过矩阵ww将数据xx投影到yy y=w¯Txy=\bar{w}^Tx 寻找阈值w0,y≥w0,为类C1,否则是类C2w_0, y \geq w_0,为类C_1,否则是类C_2LDA 算法设C1有N1个点,C2有N2个点C_1有N_1个点,C_2有N_2个点投影前,类内均值=⎧⎩⎨⎪⎪⎪⎪⎪原创 2015-11-25 23:56:33 · 593 阅读 · 0 评论 -
机器学习笔记_ 降维_2:PCA
矩阵相关正交矩阵: Q∈Rn∗nQ \in R^{n*n}, QQT=QTQ=IQQ^T=Q^TQ=I QT=Q−1Q^T=Q^{-1}Q=[q1,...,qn]的列组成标准正交组Q=[q_1,...,q_n]的列组成标准正交组特征值和特征向量λ1,⋯,λm是方阵A的m个特征向量,p1,⋯,pm是依次对应的特征向量,若λ1,⋯,λm各不相同,则p1,⋯,pm线性无关\lambda_1,\cd原创 2015-11-26 00:20:10 · 719 阅读 · 0 评论 -
机器学习笔记_ 数值最优化_3:KKT条件
KKT条件(几何的解释)对于凸优化,KKT条件的点就是其极值点(可行下降方向)。设x∗x^*是非线性规划的局部最小点,目标函数f(x)f(x)在x∗x^*可微,约束方程(g(x))在x∗x^*处可微,连续;则X*点不存在可行下降方向(因为已经是局部最小点了)若极小值点在内部,则无约束问题,直接拉格朗日乘子法若极小值在边界上,(gi(x∗)=0g_i(x^*)=0)互补松弛条件 ▽f(x∗)原创 2015-11-24 03:03:42 · 3353 阅读 · 0 评论 -
机器学习笔记_ 最大熵模型
熵的概念引例: 如果随机变量x的可能取值为 X=x1,x2,...,xkX={x_1,x_2,...,x_k}。若用n位的y: y1,⋯,yn(每个y有c种取值)y_1,\cdots, y_n(每个y有c种取值)表示,则n的取值期望。∑i=1kp(x=xi)log1p(x=xi)logc\sum\limits_{i=1}^{k}p(x=x_i) \frac {log\frac{1}{p(x=x原创 2015-11-25 00:26:01 · 1526 阅读 · 0 评论 -
机器学习笔记_ 降维_3:SVD
原理(对两个场的数据做分解和关联)设A是m*n的矩阵,m>n ;则ATA是n∗n的方阵A^TA是n*n的方阵 (ATA)vi=λivi=⎧⎩⎨⎪⎪σiui=λi−−√=1σiAvi=>A=UΣVT (A^TA)v_i=\lambda_i v_i=\left\{\begin{aligned}\sigma_i & = \sqrt{\lambda_i} \\u_i & = \frac{1}{\si原创 2015-11-26 02:04:31 · 474 阅读 · 0 评论 -
机器学习笔记_ 聚类_1:Kmeans+密度聚类
相似度Minkowski距离- dist(X,Y)=(∑i=1n|xi−yi|p)1pdist(X,Y)=(\sum\limits_{i=1}^n|x_i-y_i|^p)^\frac{1}{p}杰卡德相似系数- J(A,B)=|A∩B||A∪B|J(A,B)=\frac{|A \cap B|}{|A \cup B|}余弦相似度-cos(θ)=aTb|a||b|cos(\theta)=\frac原创 2015-11-28 12:21:54 · 1336 阅读 · 0 评论 -
机器学习笔记_ 聚类_2:谱聚类
谱聚类的定义矩阵的谱: 方阵作为线性算子,它的所有特征值的全体称为方阵的谱,非方阵(ATAA^TA)的特征值谱半径: (A^TA)的最大特征值谱聚类: 对样本数据的拉普拉斯矩阵的特征值进行聚类拉普拉斯矩阵: L=D-W原创 2015-11-28 14:34:19 · 538 阅读 · 0 评论 -
机器学习笔记_ 决策树
决策树的定义决策树-以信息熵为度量构造一个熵值下降最快的树,叶子节点的熵值是0构建决策树的算法 : ID3-C4.5-CART信息增益越大,对熵的减少能量越强,这个属性越能将数据由不确定性变成确定性ID3 & C4.5定义:经验熵,经验条件熵-选择信息增益最大的作为当前的特征信息增益: g(D,A)=H(D)−H(D|A)g(D,A)=H(D)-H(D|A)信息增益率: gr(D,A)原创 2015-11-29 12:50:49 · 403 阅读 · 0 评论 -
机器学习笔记_逻辑回归
逻辑回归解释广义线性模型中的连接函数:线性+logit+probit+对数+多类别其中二分:logit+probit链接函数的选择源于Y随机变量分布决定了关系函数YiY_i 服从正态分布 =>线性模型YiY_i服从伯努利模型=>logistic模型Y成功胜率的对数(logit)是线性模型 (π是X=x时,Y=1的概率\pi是X=x时,Y=1的概率)=>log(πi1−πi)=α+βxilo原创 2015-11-22 22:59:04 · 653 阅读 · 0 评论 -
机器学习笔记_回归_4: 最小二乘问题(3)
LARS回归引: LASSO: 不等式约束的最小二乘方法:功能:收缩:对入选的少量参数计算;选择 minx||y−y^||22\min\limits_{x}||y-\hat{y}||_2^2 subject.to||x||1=∑i=1n|xi|≤q\quad subject.to \quad||x||_1=\sum\limits_{i=1}^{n}|x_i| \leq qLasso中需要计算原创 2015-11-22 21:35:14 · 443 阅读 · 0 评论 -
机器学习笔记_数学基础_3-数理统计
随机变量的数字特征期望: <概率下的加权平均数>E(X)=∑ixipi;E(X)=\sum_i x_i p_i; E(X)=∫+∞−∞xf(x)dxE(X)=\int_{-\infty}^{+\infty}xf(x)dx方差 Var(X)=E{[X−E(X)]2}Var(X)=E\{[X-E(X)]^2\}协方差 Cov(X,Y)=E{[X−E(X)][Y−E[Y]]}Cov(X,Y)=原创 2015-11-18 16:31:39 · 1054 阅读 · 0 评论 -
机器学习笔记_数学基础_4-线性代数
行列式原创 2015-11-18 17:57:49 · 807 阅读 · 0 评论 -
机器学习笔记_数学基础_5-矩阵理论
矩阵分解Guass消去: 高斯消去可以充分进行的充分必要条件是A的前n-1个顺序主子式都不为零 △k≠0,k=1,2,,⋯,n−1\bigtriangleup_k \neq 0, k=1,2,,\cdots,n-1矩阵三角分解(Guass消去的推广)QR分解(正交三角分解) 实非奇异矩阵A分解为正交矩阵Q和实非奇异三角矩阵R的乘积奇异值分解若A是n阶实对原创 2015-11-18 23:44:38 · 1005 阅读 · 0 评论