2015年11月_LandscapeMi

原创机器学习笔记_ 决策树

决策树的定义决策树-以信息熵为度量构造一个熵值下降最快的树，叶子节点的熵值是0构建决策树的算法 : ID3-C4.5-CART信息增益越大，对熵的减少能量越强，这个属性越能将数据由不确定性变成确定性ID3 & C4.5定义：经验熵，经验条件熵-选择信息增益最大的作为当前的特征信息增益： g(D,A)=H(D)−H(D|A)g(D,A)=H(D)-H(D|A)信息增益率: gr(D,A)

2015-11-29 12:50:49 403

原创机器学习笔记_ 聚类_2：谱聚类

谱聚类的定义矩阵的谱：方阵作为线性算子，它的所有特征值的全体称为方阵的谱，非方阵(ATAA^TA)的特征值谱半径: (A^TA)的最大特征值谱聚类: 对样本数据的拉普拉斯矩阵的特征值进行聚类拉普拉斯矩阵: L=D-W

2015-11-28 14:34:19 538

原创机器学习笔记_ 聚类_1：Kmeans+密度聚类

相似度Minkowski距离- dist(X,Y)=(∑i=1n|xi−yi|p)1pdist(X,Y)=(\sum\limits_{i=1}^n|x_i-y_i|^p)^\frac{1}{p}杰卡德相似系数- J(A,B)=|A∩B||A∪B|J(A,B)=\frac{|A \cap B|}{|A \cup B|}余弦相似度-cos(θ)=aTb|a||b|cos(\theta)=\frac

2015-11-28 12:21:54 1336

原创机器学习笔记_ 降维_3：SVD

原理(对两个场的数据做分解和关联)设A是m*n的矩阵,m>n ;则ATA是n∗n的方阵A^TA是n*n的方阵 (ATA)vi=λivi=⎧⎩⎨⎪⎪σiui=λi−−√=1σiAvi=>A=UΣVT (A^TA)v_i=\lambda_i v_i=\left\{\begin{aligned}\sigma_i & = \sqrt{\lambda_i} \\u_i & = \frac{1}{\si

2015-11-26 02:04:31 474

原创机器学习笔记_ 降维_2：PCA

矩阵相关正交矩阵： Q∈Rn∗nQ \in R^{n*n}, QQT=QTQ=IQQ^T=Q^TQ=I QT=Q−1Q^T=Q^{-1}Q=[q1,...,qn]的列组成标准正交组Q=[q_1,...,q_n]的列组成标准正交组特征值和特征向量λ1,⋯,λm是方阵A的m个特征向量，p1,⋯,pm是依次对应的特征向量，若λ1,⋯,λm各不相同，则p1,⋯,pm线性无关\lambda_1,\cd

2015-11-26 00:20:10 718

原创机器学习笔记_降维_1:LDA(fisher)

LDA分类器（2分类问题）存在超平面将两类数据分开，存在旋转向量，将两类数据投影到1维，并且分开.通过矩阵ww将数据xx投影到yy y=w¯Txy=\bar{w}^Tx 寻找阈值w0,y≥w0，为类C1,否则是类C2w_0, y \geq w_0，为类C_1,否则是类C_2LDA 算法设C1有N1个点，C2有N2个点C_1有N_1个点，C_2有N_2个点投影前，类内均值=⎧⎩⎨⎪⎪⎪⎪⎪

2015-11-25 23:56:33 593

原创机器学习笔记_ 最大熵模型

熵的概念引例：如果随机变量x的可能取值为 X=x1,x2,...,xkX={x_1,x_2,...,x_k}。若用n位的y: y1,⋯,yn(每个y有c种取值)y_1,\cdots, y_n(每个y有c种取值)表示，则n的取值期望。∑i=1kp(x=xi)log1p(x=xi)logc\sum\limits_{i=1}^{k}p(x=x_i) \frac {log\frac{1}{p(x=x

2015-11-25 00:26:01 1526

原创机器学习笔记_ 数值最优化_3：KKT条件

KKT条件(几何的解释)对于凸优化，KKT条件的点就是其极值点(可行下降方向)。设x∗x^*是非线性规划的局部最小点，目标函数f(x)f(x)在x∗x^*可微，约束方程(g(x))在x∗x^*处可微，连续；则X*点不存在可行下降方向(因为已经是局部最小点了)若极小值点在内部，则无约束问题，直接拉格朗日乘子法若极小值在边界上，(gi(x∗)=0g_i(x^*)=0)互补松弛条件 ▽f(x∗)

2015-11-24 03:03:42 3353

原创机器学习笔记_ 数值最优化_2：最优化算法

导数的算法梯度下降牛顿方法：二阶展开(无需计算步长)φ=f(xk)+f′(xk)(x−xk)12f′′(xk)(x−xk)2+R2(x)\varphi=f(x_k)+f^{'}(x_k)(x-x_k)_\frac{1}{2}f^{''}(x_k)(x-x_k)^2+R_2(x) => φ′(x)≈f′(xk)+f′′(xk)(x−xk)\varphi ^{'}(x) \approx f^{'

2015-11-24 01:20:36 1480

原创机器学习笔记_ 数值最优化_1：最优化条件

无约束问题的极值条件minf(x);x∈Rnmin \quad f(x) ; \quad x \in R^n最优性条件 -全局最优；局部最优； -局部最优（一阶必要条件）：设x∗是f(x)的一个局部极小点的条件是g(x∗)=0x^*是f(x)的一个局部极小点的条件是g(x^*)=0 -局部最优（二阶必要条件）：设x∗是f(x)的一个局部极小点的条件是G(x∗)=

2015-11-23 17:01:22 1071

原创机器学习笔记_逻辑回归

逻辑回归解释广义线性模型中的连接函数：线性+logit+probit+对数+多类别其中二分：logit+probit链接函数的选择源于Y随机变量分布决定了关系函数YiY_i 服从正态分布 =>线性模型YiY_i服从伯努利模型=>logistic模型Y成功胜率的对数(logit)是线性模型（π是X=x时，Y=1的概率\pi是X=x时，Y=1的概率）=>log(πi1−πi)=α+βxilo

2015-11-22 22:59:04 653

原创机器学习笔记_回归_4: 最小二乘问题（3）

LARS回归引: LASSO: 不等式约束的最小二乘方法：功能：收缩：对入选的少量参数计算；选择 minx||y−y^||22\min\limits_{x}||y-\hat{y}||_2^2 subject.to||x||1=∑i=1n|xi|≤q\quad subject.to \quad||x||_1=\sum\limits_{i=1}^{n}|x_i| \leq qLasso中需要计算

2015-11-22 21:35:14 443

原创机器学习笔记_回归_4: 最小二乘问题（2）

subset的选择(特征选择)参看博客：http://m.blog.csdn.net/blog/xbinworld/44284293 * lasso可以做特征选择(转化为求解次梯度:owl-qn)自变量选择对于估计和预测的影响全模型与选模型全模型：设因变量为mm个： y=β0+β1x1,⋯,+βmxm+εy=\beta_0+\beta_1x_1,\cdots,+\beta_mx_m+\

2015-11-22 17:09:31 1139

原创机器学习笔记_回归_4: 最小二乘的改进(1)

局部加权回归岭回归(ridge regression)RR（稀疏矩阵）针对多重共线性 |XTX|≈0|X^TX| \approx0:β^=(XTX+kI)−1XTy:\quad\hat{\beta}=(X^TX+kI)^{-1}X^Ty k:岭参数k: 岭参数=>得到β\beta参数的估计族有偏估计岭迹：参数 k在（0，+∞），则β^是k的参数，所有曲线是岭迹k在（0，+\infty ）

2015-11-22 11:27:23 542

原创机器学习笔记_回归_3: 广义线性模型

指数分布族参看：机器学习笔记(july七月)_数学基础_2-概率论 http://blog.csdn.net/mijian1207mijian/article/details/49896689满足指数族分布 <=> GLM广义线性模型二项分布和正态分布概率密度函数均可以由指数族的标准形式推出；广义线性模型线性模型： E(Y)=μ=∑k=1KβkxkE(Y)=\mu=\sum\limits_{

2015-11-22 01:47:43 400

原创机器学习笔记_回归_2: 最小二乘问题

线性回归求解最小二乘解析解12∑i=1m(hθxi−yi)2=12(Xθ−y⃗ )T(Xθ−y⃗ )=J(θ)\frac{1}{2} \sum\limits_{i=1}^{m}(h_{\theta}x^i-y^i)^2=\frac{1}{2}(X\theta-\vec{y})^T(X\theta-\vec{y})=J(\theta)=> ▽θJ(θ)=(XTX)−1XTy\bigtriangle

2015-11-22 00:16:17 486

原创机器学习笔记_回归_1:线性回归

线性回归的定义

2015-11-21 15:32:37 606

转载数学基础：矩阵的求导

矩阵的迹aTa=tr(aaT)a^Ta=tr(aa^T)矩阵的求导机器学习的矩阵求导：http://www.cnblogs.com/thu539/archive/2012/11/09/2762701.html 矩阵运算的推导：http://blog.csdn.net/u012176591/article/details/34251843 闲话矩阵求导：http://xuehy.github.io

2015-11-21 12:43:02 1257

原创机器学习笔记_数学基础_7-凸优化理论

优化问题minf0(x)min f_0(x) subjecttofi(x)≤bi,i=1,⋯,msubject to f_i(x) \leq b_i, \quad i=1,\cdots,m x=(x1,⋯,xn)x=(x_1,\cdots,x_n) 称为优化变量 f0f_0称为目标函数 fif_i称为约束函数最小二乘问题 (无约束条件；目标函数是若干平和)minf0(x)=||Ax−b|

2015-11-20 10:50:03 4660

原创机器学习笔记_数学基础_5-矩阵理论_续1_QR分解

矩阵的QR分解实非奇异矩阵(满秩矩阵)A能够分解为正交矩阵Q和实非奇异上三角矩阵R的乘积证明：令AA的n个列向量a1,⋯,ana_1,\cdots,a_n, 因为A非奇异，=>列向量线性无关则列向量的施密特正交化可得，n个标准的正交列向量 q1,⋯,qNq_1,\cdots,q_N证明：令 A的列向量为aia_i => 对aia_i正交化得 ⎧⎩⎨⎪⎪⎪⎪⎪⎪⎪⎪⎪⎪b1b2⋮bn

2015-11-19 14:56:58 857

原创机器学习笔记_数学基础_6-矩阵方程组的求解与最小二乘定义

矩阵方程组的求解AX=bAX=b 的解问题 AX=b 有解 =>=> 唯一解；无穷多解；AX=b 无解 =>=> 转换为最小二乘问题(没有解析解，寻找最优解，最小二乘问题)有解得矩阵方程算法高斯消去法(复杂度o(n3)o(n^3))迭代算法(为什么选择迭代算法：(1) 迭代后，计算量减小 (2)稀疏矩阵=>高斯消去法中，对于0向量要进行填充，所以采用迭代的方法) （系数矩阵严格对角占

2015-11-19 10:46:38 1193

原创机器学习笔记_数学基础_5-矩阵理论

矩阵分解Guass消去：高斯消去可以充分进行的充分必要条件是A的前n-1个顺序主子式都不为零 △k≠0,k=1,2,,⋯,n−1\bigtriangleup_k \neq 0, k=1,2,,\cdots,n-1矩阵三角分解（Guass消去的推广）QR分解(正交三角分解) 实非奇异矩阵A分解为正交矩阵Q和实非奇异三角矩阵R的乘积奇异值分解若A是n阶实对

2015-11-18 23:44:38 1005

原创机器学习笔记_数学基础_4-线性代数

行列式

2015-11-18 17:57:49 807

原创机器学习笔记_数学基础_3-数理统计

随机变量的数字特征期望： <概率下的加权平均数>E(X)=∑ixipi;E(X)=\sum_i x_i p_i; E(X)=∫+∞−∞xf(x)dxE(X)=\int_{-\infty}^{+\infty}xf(x)dx方差 Var(X)=E{[X−E(X)]2}Var(X)=E\{[X-E(X)]^2\}协方差 Cov(X,Y)=E{[X−E(X)][Y−E[Y]]}Cov(X,Y)=

2015-11-18 16:31:39 1054

原创机器学习笔记_数学基础_2-概率论

概率论概率： P(X)∈[0,1]=>离散；连续P(X) \in [0,1] => 离散；连续累积分布函数 Φ(x)=P(x)\Phi(x)=P(x)

2015-11-18 00:28:59 683

原创机器学习笔记_数学基础_1-微积分

微积分极限导数：一阶导数；二阶倒数；微分中值定理（1）罗尔定理（倒数为零的点是驻点）（2）拉格朗日中值定理泰勒公式 f(x)=f(x0)+f′(x0)(x−x0)+f”(x0)2!(x−x0)2+…+f(x)=f(x_0)+f’(x_0)(x-x_0)+\frac{f”(x_0)}{2!}(x-x_0)^2 +…+

2015-11-17 21:28:14 910

LandscapeMi