![](https://img-blog.csdnimg.cn/20201014180756919.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
数据科学
文章平均质量分 68
billy145533
这个作者不懒,但还是什么都没留下…
展开
-
鲁棒偏最小二乘法概况
偏最小二乘法就其本质是在得分空间或者是基于潜在变量的最小二乘法。其中,得分空间的构建称为内模型(inner PLS model),最小二乘法称为外模型(outter PLS model)。无论是得分空间的构建还是最小二乘法,都容易受到异常点的影响。鲁棒PLS概况目前...原创 2021-08-24 11:27:09 · 961 阅读 · 0 评论 -
极简谱聚类(spectral clustering)
谱聚类是基于矩阵SVD分解的一种聚类方法,就矩阵分解而言,并没有什么新奇的,但是利用矩阵分解来解决问题的思路值得研究一下 解决的问题实现图的最佳分割 优化目标切割目标,切割成本最小,分割后的数据规模差不多大。通俗的说,就是集群内部,节点联系尽量紧密,群集外部连接越少。 解决过程步骤一建立拉普拉斯矩阵(度矩阵-连接矩阵)这个矩阵第一个巧妙之处在于它的最小特征向量w1∝(1,⋯ ,1)w_1 \propto (1,\cdots,1)w1∝(1,⋯,1),这样后面的特征向量因为wiT原创 2021-01-20 10:33:39 · 418 阅读 · 1 评论 -
Reduce-Rank Regression通俗解释及与其他降维方法的关系
PCA:Var(Xw)RRR:Var(Xw)⋅Corr2(Xw,Yv)⋅Var(Yv)PLS:Var(Xw)⋅Corr2(Xw,Yv)⋅Var(Yv)=Cov2(Xw,Yv)CCA:Var(Xw)⋅Corr2(Xw,Yv)\mathrm{PCA:}\operatorname{Var}(\mathbf{Xw}) \\\mathrm{RRR:}\phantom{\operato...原创 2020-10-24 08:44:44 · 2057 阅读 · 0 评论 -
matlab生成多元回归仿真数据
文章目录前言仿真模型参数设置代码结果高维数据仿真前言 算法仿真需要生成多元回归的仿真数据,这里将代码简单地总结一下仿真模型y=Xβ+ϵy = X\beta+\epsilony=Xβ+ϵy∈Rn×1,X∈Rn×p,β∈Rn×1,ϵ∈Rn×1y\in \mathbb{R}^{n\times 1},X\in \mathbb{R}^{n\times p},\beta\in \mathbb{R}^{n\times 1},\epsilon \in \mathbb{R}^{n\times 1}y原创 2020-10-09 08:31:30 · 1313 阅读 · 0 评论 -
matlab取色工具getpts
文章目录配色方案颜色提取演示参考写论文画图,给线条配色是个难题,matlab默认的配色还过得去,自带的像,‘red’,‘blue’,看了实在令人难受,为了给找一些好看的配色方案,网上找了一圈,看到些有用的东西,这里记录一下配色方案这个博客里面的配色看起来还不错,这里把颜色提取方法记录一下。具体见参考1颜色提取主要采用matlab的getpts,过程很方便。具体如下,保存上图,读入图片,显示,然后调用getpts,通过单击取得要拾取的颜色的位置,在最后一个位置,左键双击,getpts就返回了,得原创 2020-09-30 14:26:54 · 1830 阅读 · 0 评论 -
懒人式matlab的交叉检验用法
模型训练经常要采用交叉检验或者蒙特卡罗的训练方法,matlab常用的是crossvalind。其实已经很简单,这里想再偷懒一点,将crossvalind包装一下,将训练数据和测试数据直接放到cell结构,这样,只要告诉下面的函数,训练数据和分组数目,就直接返回分组后的结果function [XTrainData,YTrainData,XTestData,YTestData,indices] = easyCrossvalidation(X,y,fold)% 调用matlab的crossvalind,将数据原创 2020-09-30 14:08:49 · 1012 阅读 · 0 评论 -
The Extended Yale Face Database B 转为 Matlab 格式
文章目录前言下载链接提取过程测试前言网上找了一个小的人脸识别数据库,没有找到mat格式的,可以直接用,花了一点时间自己将图像导入matlab里面,顺便将过程分享一下下载链接裁剪后的官网下载链接http://vision.ucsd.edu/extyaleb/CroppedYaleBZip/CroppedYale.zip百度网盘附带mat格式的文件https://pan.baidu.com/s/1QVIWvyuQuMpCtcBeigpLmg提取码:pzjr提取过程将CroppedYale原创 2020-08-21 23:13:42 · 1790 阅读 · 1 评论 -
论文阅读:Axiomatic Characterization of Data-Driven Influence Measures for Classification
个人水平有限,感觉论文写得不太容易理解Axiomatic Characterization of Data-Driven Influence Measures for Classification该论文特征影响力的计算是针对分类的情况,而且感觉是二分类,最重要的是下面这个影响力的计算公式ϕ(x⃗,X,c)=∑y⃗∈X\x⃗(y⃗−x⃗)α(∥y⃗−x⃗∥)l(c(x⃗)=c(y⃗))\phi(\vec{x}, \mathcal{X}, c)=\sum_{\vec{y} \in \mathcal{X}原创 2020-08-02 13:51:40 · 155 阅读 · 0 评论 -
Matlab用两句话搞定数据中的重复行
在数据处理中,有时候数据里混入了重复的行,给数据分析带来了不必要的麻烦,要删除并不难,如何以最简单的方式处理则需要花一点时间直接上代码,最后面两句是用于查找重复数据的行号随机生成A数据,在9,18,19位置加入重复的行A = rand(8,8);A(9,:) = A(2,:);A = [A;rand(8,8)];A(18,:) = A(6,:);A(19,:) = A(6,:);[B,ia,ib] = unique(A,'rows');dup = setdiff(1:size(A,1),i原创 2020-07-15 08:51:14 · 5635 阅读 · 0 评论 -
论文阅读理解:Understanding Black-box Predictions via Influence Functions
文章目录Cook DistanceInfluence Function参数影响Iup,params(z)\mathcal{I}_{up,params}(z)Iup,params(z)损失影响Iup,loss(z,ztest)\mathcal{I}_{up,loss}(z,z_{test})Iup,loss(z,ztest)网上关于这篇论文的阅读已经不少,这篇文章主要是想简单说说影响函数的具体意义Cook DistanceDi=(y^(−i)−y^)T(y^(−i)−y^)ps2=(θ(−i)原创 2020-06-30 23:38:00 · 614 阅读 · 0 评论 -
异常检测 cook distance
前面写了leverage 杠杆的计算以及其意义主要是为后面的内容做一些铺垫.Cook’s distance起源于提出这个名词的统计学家Cook,用于删除一个样本后,对模型的影响。假设有如下模型y=Xβ+ϵ,X∈Rm×p {\mathbf{y}}= {\mathbf{X}}{{\beta}}+\epsilon,X \in \mathbb{R}^{m \times p}y=Xβ+ϵ,X∈Rm×pβ^=(XTX)−1XTy⇒y^=Xβ^\hat{\beta}= (X^TX)^{-1}X^Ty\Righta原创 2020-06-30 11:37:15 · 4955 阅读 · 0 评论 -
异常检测:Leverage of observation
Leverage杠杆是一个指标,描述了样本对模型的影响程度高杠杆点本质是一种离群点,但是它不同于普通离群点,和拟合直线比较远,而是离开群体远,却在拟合直线附近。为了,拟合得更好,拟合直线需要靠近这点以减少拟合误差。这样导致了直线偏离了其他的点,这点相当于一个支点。个人认为这是杠杆的由来。y=Xβ+ϵ,X∈Rm×n,y∈Rm×1,ϵ∼N(0,σ2)β^=(XTX)−1XTyy = X\beta+\epsilon,X\in \mathbb{R}^{m \times n},y \in \mathbb{R}^原创 2020-06-29 12:33:47 · 976 阅读 · 0 评论 -
Matlab下的整数规划(CVX)
文章目录Toy Example安装Gurobi,Mosek测试参考CVX的免费版本并不支持整形规划,所以需要安装其他的优化工具,如,Gurobi,Mosek,Cplex等。好在CVX支持调用Gurobi,Mosek等工具,在matlab中,不改变原先的CVX算法,只需要改变优化工具就行,默认SDPT3Toy Example从data里面找出10个数字,使之求和最小data = 1:1:n;cvx_begin variable pp(n) binary minimize (da原创 2020-06-25 21:17:22 · 7891 阅读 · 3 评论 -
二次规划的对偶形式(CVX)
文章目录输入数据优化代码计算对偶间隙原目标拉格朗日的形式对偶形式参考解析一下 Boyd & Vandenberghe, "Convex Optimization"上的例子,重点在于其对偶形式是怎么得到的Section 5.2.4: Solves a simple QCQP输入数据randn('state',13);n = 6;P0 = randn(n); P0 = P0'*P0 + eps*eye(n);P1 = randn(n); P1 = P1'*P1;P2 = randn原创 2020-06-25 10:24:58 · 5515 阅读 · 0 评论 -
最小二乘法的对偶形式(CVX)
文章目录数据生成部分第一种形式第二种形式第三种形式第四种形式第五种形式参考最小二乘法的表示形式很多,其对偶形式也很多。这里学习了CVX官网的例子,求解最小二乘法的几种形式,这里进行简单的分析,看看是怎么得到的。数据生成部分randn('state',0);n = 4;m = 2*n;A = randn(m,n);b = randn(m,1);p = 2;q = p/(p-1);第一种形式cvx_begin quiet variable x(n) minimize (原创 2020-06-24 23:33:55 · 1536 阅读 · 0 评论 -
鲁棒最小二乘法的三种优化形式(CVX)
鲁棒最小二乘法的主要思想是利用加权对误差大的样本进行抑制,减小他们对结果的影响minimizeβ∑i=1mhuber(βTxi−yi)huber(u)={u2,∣u∣<=MM(2∣u∣−M),∣u∣>M \underset{\beta}{minimize}\sum_{i=1}^{m} huber(\beta^Tx_i - y_i)\\huber(u)=\left\{\begin{matrix} u^2 ,&|u| <= M \\ M(2|u| - M),& |原创 2020-06-23 13:27:23 · 2904 阅读 · 0 评论 -
常见优化类型小结
优化方式各种各样,但是总结起来常用的就那么几种,LP/QP/QCQP/SDP/SOCP,命名是根据优化的目标和约束来命名的Linear Programming(LP)目标线性,约束线性minimizes cTxminimizes \ c^Txminimizes cTxAx<bAx<bAx<bQuadratic Programming(QP)二次规划目标二次项,约束均为线性minimize xTPx+qTx+c minimize\ x^TPx+q^原创 2020-06-22 22:16:32 · 927 阅读 · 0 评论 -
Android OpenCV 3.2 SVM 调用
最近在android下,玩OpenCV,使用起来很简单。目标:手写数字,使用SVM进行分类代码主要来自下面这个项目:github.com/wblgers/OpenCV_Android_Plus/tree/master/这个代码是在真机上,利用JNI方式,以载入so文件的方式调用Opencv,而我用的是OpenCV Manager的方式调用,并且大家用的OpenCV的版本不同,调用的形式也不一样。首先, 在著名Mnist数据集上训练,得到mnist.xml模型,保存为 res/raw/mnist.原创 2020-05-16 09:15:46 · 409 阅读 · 0 评论 -
Probabilistic PCA
文章目录前言介绍PCAPPCAFactor Analysis总结参考文献前言一直觉得PCA还是比较简单容易理解的,但是到了Probabilistic PCA(PPCA)就开始觉得复杂起来。PCA出来已经有100年时间,而PPCA到了1999年才出来。这段时间看了这方面的资料,以下将自己的理解记录一下介绍假设有数据X,X∈Rm×n\LARGE X,X\in \mathbb{R}^{m\ti...原创 2020-03-05 11:27:08 · 657 阅读 · 0 评论 -
隐马尔可夫模型与语音识别
文章目录前言马尔可夫链隐马尔可夫HMM中的语音识别(孤立词)HMM 语音识别过程参考文献前言隐马尔科夫链结合语言识别,在细节上,涉及到的知识挺多,没有一定的时间投入难以很好的去把握。这篇文章只想借着自己的一小段时间学习,从整体上,理一下HMM在ASR的应用过程,不想去探究其中的具体细节。文中的图片基本截取自参考文献中的内容。# 隐马尔可夫(HMM)马尔可夫链马尔可夫链描述了当前状态与...原创 2020-02-19 22:05:30 · 6171 阅读 · 0 评论 -
图解 Expectation Maximization 期望最大化 与应用例子
文章目录前言介绍似然函数Jensen不等式EM 算法参考文献前言 网上对EM算法介绍已经很详尽,但是没看到比较详细的案例,理解起来有一些抽象。本文对EM的算法做一些总结,重点是介绍EM的案例,使得对该算法有一个直观的理解。介绍EM算法主要是针对存在隐变量的问题,即数据不完整的条件下去做参数估计。与之相反,当数据完整的时候,我们采用最大似然法就能解决问题。似然函数L(θ)=∏p(x1...原创 2020-02-16 15:24:55 · 292 阅读 · 0 评论 -
Two-Dimensional PCA: A New Approach to Appearance-Based Face Representation and Recognition
文章目录前言TWO-DIMENSIONAL PRINCIPAL COMPONENT ANALYSIS前言这篇文章还是经典的人脸识别思路。区别在于,传统的人脸识别在使用PCA的时候,采用的方法往往是将图像矩阵转为矢量。本文作者认为这种方式导致每一个样本的维度大,而样本少,这样构建的协方差矩阵并不合理。所以,作者提出了一种2维的PCA,在进行PCA,主特征提取的时候无需对图像进行矢量化。TWO...原创 2020-01-21 17:49:03 · 881 阅读 · 0 评论 -
Link function and Variance function of Generalized linear models
文章目录Definitionlink functionvariance functionGENERALIZED LINEAR MODEL常见的模型以及分布单响应变量的普通线性模型参考文献这篇文章只想尽量清楚的定义两个概念,Link function and Variance function,前面已经讲到了方差估计。这里希望能做一个更清楚的解释。参考了不少文献,许多书描述的太统计,让人觉得抽象...原创 2020-01-18 21:39:52 · 1170 阅读 · 0 评论 -
Generalized Linear Models参数的方差估计
文章目录前言Generalized Linear Models定义GLM参考文献前言 一直仅关注于正态分布,最近看文献,持续看到Generalized Linear Models,其中的定义,看了觉得有些生疏,于是找几篇文献读读,将这些知识串起来。Generalized Linear ModelsGLM是对线性模型的一种抽象,将正态,二项,泊松等分布结合到一个模型。具体操作的步...原创 2020-01-05 22:04:33 · 531 阅读 · 0 评论 -
Functional Principal Component Regression and Functional Partial Least Squares
文章目录前言前言Functional Data Analysis (FDA)比较热门,好多算法都出来Functional版本原创 2020-01-03 20:36:12 · 513 阅读 · 0 评论 -
Spline Regression with Penaties
文章目录1.前言2.基本理论3惩罚项3.1惩罚项介绍3.2惩罚项3.2.1 二阶导数3.2.2 系数高阶导4.复现代码5.小结References1.前言前面介绍spline的基本性质和最小二乘回归,这里进入正题,主要总结Spline Regression的内容,主要的复现参考论文中的P-spine,针对的是Cardinal B-spline,就是分割节点是等间隔的2.基本理论高阶基...原创 2020-01-01 22:16:26 · 524 阅读 · 0 评论 -
Cardinal B-Splines 曲线拟合
文章目录前言目标Cardinal B-SplinesCardinal B-Spline 曲线拟合基本原理代码结果参考文献前言前面介绍了spline的基函数,没想到以前觉得很简单的东西,能够玩出这么多花样。我的初衷本不过是想了解一下spline回归的基本思想,没想到陷进去了,索性弄得透彻点些吧目标这篇日志主要是解释一下Cardinal B-Splines的求导,后面给出一个splin...原创 2019-12-30 22:08:57 · 2708 阅读 · 0 评论 -
Definition of Spline Basis Function
文章目录背景Spline Basis Function代码参考福利背景最近在研究functional 回归,发现有一些smoothing信号处理方法,跟我以前的一些肤浅的想法居然有一些共性,看来不是想不到,而是不敢想,想得不够深入的问题。这种算法提出已经比较久了,其中比较流行的一种平滑处理算法是基于B-spline。样条插值,作为一种插值或者函数逼近,无论是做图形图像还是数值分析,老早就接触过...原创 2019-12-29 17:35:25 · 727 阅读 · 0 评论 -
维纳滤波及其简单实现
文章目录介绍基本概念简单实现过程matlab实现结果小结介绍随机信号包括了确定信号和随机噪声两部分。维纳滤波的本质是设计一组冲击响应的函数,抑制信号中的随机噪声部分,或者说非预期信号部分,使得信号与预期值的均方误差达到最小。基本概念在开始维纳滤波的介绍前,先描述一下几个基本的概念以下只给出离散过程的公式自相关函数为了描述随机变量X(n),X(n+t),在不同时刻下的相互联系,引入了...原创 2019-10-31 19:51:50 · 5323 阅读 · 4 评论 -
四参数拟合之C代码(基于GSL)
文章目录前言过程代码结果前言前面已经通过3篇介绍了关于四参数拟合算法,主要用到拟牛顿和LMF方法,都是用matlab实现的。本想用C自己实现一遍,一想到其中涉及不少的矩阵运算,考虑到用C实现的工作量,立马打退堂鼓。几年前用过GSL,感觉调用它的线性代数运算还是挺方便的,于是果断去网上找GSL。目前,GSL已经更新到2.6,它真是一个宝库,里面居然已经包含了LMF算法。尽管在编码,让人觉得有些诡...原创 2019-10-17 11:27:42 · 2407 阅读 · 2 评论 -
四参数拟合之LM(有约束)
文章目录前言目标变换matlab Code运算结果前言之前几篇文章写的都是四参数的无约束的优化方法,问题是,四参数本身是有约束的。这里,通过变化法,将一个有约束的问题转换为无约束的问题,再使用LMF法求得最优解。目标变换原目标arg minw∑i=1m∣∣yi−f(w;xi)∣∣2+λ∣∣Δw∣∣2f(w;xi)=D+A−D1+(xi/C)Bs.t. &n...原创 2019-10-14 17:20:18 · 2005 阅读 · 0 评论 -
四参数拟合之LMF法(无约束)
文章目录前言LM 算法Matlab代码前言 写到这里,已经发现了前面两篇文章的重大bug。那就是牛顿法也好,LM法也好,都是针对无约束的问题,而四参数拟合问题是一个有约束的问题,参数一般设置为0到正无穷。这也解释了为何之前的计算结果,总是和L4P的结果不同。根本原因在于完全没搞懂四参数拟合的参数意义。所以这篇重点介绍LM算法,四参数拟合结果仍然有问题 事到如今,将错就错, 把Levenber...原创 2019-10-13 20:36:27 · 2269 阅读 · 0 评论 -
四参数拟合算法之高斯牛顿法
文章目录介绍牛顿法Matlab Code介绍 前面提到了牛顿法,那其实相当于求根的算法。跟一般最小二乘法的区别是,它并没有显示的最小二乘目标式子。F(A,B,C,D,xi)=0F(A,B,C,D,x_i) = 0F(A,B,C,D,xi)=0 下面提到的高斯牛顿法,则要正式引入最小二乘法的目标式子。首先对牛顿法做一次更深入的展开。牛顿法 牛顿法在用于一元方程求根的时候,只需要做一阶泰...原创 2019-10-12 20:12:08 · 2177 阅读 · 7 评论 -
四参数拟合算法之牛顿法
背景 :因为工作需要用C/C++实现四参数拟合算法,在网上搜了一圈,没找到合适的现成代码,就是现成其他语言的代码,也没有找到完整实现的,效果最好的要数L4P 的matlab代码,可惜它最终调用的fit函数是matlab内置的,看不到具体实现,大概是采用拟牛顿一类的算法,总之,最后都想到去C++数值算法中找,也无功而返,没办法,只能自己实现了。这里节省时间,只是用matlab验证。目标 :给...原创 2019-10-11 16:59:25 · 7413 阅读 · 4 评论 -
为何QR分解收敛于特征值
QR分解求特征值的方法很简单,计算过程如下:QR本身可以看作一个将矩阵A转化为上三角矩阵R的过程,通过householder,givens转换等手段,构造一系列的变换矩阵T,将矩阵转换为上三角矩阵R,而变换矩阵的逆矩阵则构成了Q。一定条件下,经过n次迭代后,迭代矩阵An会神奇的收敛成一个上三角矩阵,其对角阵对应的元素就是An的特征值,也是原始矩阵A的特征值,是不是很神奇。那么为什么会...原创 2019-09-01 15:17:58 · 3633 阅读 · 0 评论 -
深入理解PCA原理
基于之前谈的SVD,说一下PCA的原理.PCA主要的作用是用于降维的,目前降维方法很多,PCA只是比较古老经典的一种。令样本空间(假设已经中心化)为 ,x属于n维的行向量,每行代表一个样本PCA的思路是找到一组正交基(v1,...vr),r&...原创 2019-05-15 20:20:32 · 554 阅读 · 0 评论 -
SVD通俗解析
1.特征分解 对于方阵A(n×n)而言,假若A存在n个特征向量线性无关,也就是满足可对角化的条件那么有 其中,W是这n个特征向量所张成的n×n维矩阵,而Σ为这n个特征值构成的对角矩阵 假如A为对称矩阵,则A可以表示为...原创 2019-05-09 11:48:01 · 1127 阅读 · 0 评论 -
Matlab license checkout failed -8 的坑
从matlab7的几百M到matlab 2018a的十几个G,软件究竟有多少飞跃,难以想象,但是就装机的过程确实要比以前复杂不少。关于软件,自认还算老鸟,还是义无反顾的掉入这个坑,无力自拔。下载 matlab 2018a,弹出license checkout failed -8,对照各种教程,反复确认安装无误,失败,大概是破解文件不适合我的系统。破解教程常说的netapi32.dll,默认安装好m...原创 2018-07-15 10:02:20 · 25330 阅读 · 4 评论