统计
Hookee
这个作者很懒,什么都没留下…
展开
-
logistic回归的一些直观理解(1.连接函数 logit probit)
logistic回归的一些直观理解(1.连接函数 logit probit) 前面写了一些读书笔记是关于用logit回归做二分类问题后的效果评价,基本上已经可以告一段落。然后打算回过头来整理一下logit回归本身的一些思路。很惭愧,我不是统计学出身,当年概率论差点考挂,数理统计也是一门选修课(唯一印象深刻的是老师的口音),所以大概很难从理论上进行严格的阐述,主要还是写一点直观的理解。转载 2013-06-21 13:37:01 · 7230 阅读 · 0 评论 -
因子分析(Factor Analysis)
1 问题 之前我们考虑的训练数据中样例的个数m都远远大于其特征个数n,这样不管是进行回归、聚类等都没有太大的问题。然而当训练样例个数m太小,甚至m<<n的时候,使用梯度下降法进行回归时,如果初值不同,得到的参数结果会有很大偏差(因为方程数小于参数个数)。另外,如果使用多元高斯分布(Multivariate Gaussian distribution)对数据进行拟合时,也会有问题。让转载 2013-08-07 16:20:53 · 1348 阅读 · 1 评论 -
主成分分析(Principal components analysis)-最大方差解释
在这一篇之前的内容是《Factor Analysis》,由于非常理论,打算学完整个课程后再写。在写这篇之前,我阅读了PCA、SVD和LDA。这几个模型相近,却都有自己的特点。本篇打算先介绍PCA,至于他们之间的关系,只能是边学边体会了。PCA以前也叫做Principal factor analysis。1. 问题 真实的训练数据总是存在各种各样的问题:1、 比如拿到一个汽车的样转载 2013-08-07 16:19:27 · 972 阅读 · 0 评论 -
主成分分析(Principal components analysis)-最小平方误差解释
3.2 最小平方误差理论 假设有这样的二维样本点(红色点),回顾我们前面探讨的是求一条直线,使得样本点投影到直线上的点的方差最大。本质是求直线,那么度量直线求的好不好,不仅仅只有方差最大化的方法。再回想我们最开始学习的线性回归等,目的也是求一个线性函数使得直线能够最佳拟合样本点,那么我们能不能认为最佳的直线就是回归后的直线呢?回归时我们的最小二乘法度量的是样本点到直线转载 2013-08-07 16:22:22 · 824 阅读 · 0 评论 -
偏相关系数
在多元相关分析中,简单相关系数可能不能够真实的反映出变量X和Y之间的相关性,因为变量之间的关系很复杂,它们可能受到不止一个变量的影响。这个时候偏相关系数是一个更好的选择。偏相关系数是在排除了其他变量的影响下计算变量间的相关系数。假设我们需要计算X和Y之间的相关性,Z代表其他所有的变量,X和Y的偏相关系数可以认为是X和Z线性回归得到的残差Rx与Y和Z线性回归得到的残差Ry之间的简单相关系数,转载 2014-02-19 09:24:22 · 8799 阅读 · 0 评论 -
马尔可夫入门概念
为了清楚整理马尔可夫相关概念,做了下笔记,首先抛出一些概念:1 【马尔可夫性质 马尔可夫过程 马尔可夫链】概念:其未来由现在决定的程度,使得我们关于过去的知识丝毫不影响这种决定性。这种在已知“现在”的条件下,“未来”与“过去”彼此独立的特性就被称为马尔可夫性,具有这种性质的随机过程就叫做马尔可夫过程,其最原始的模型就是马尔可夫链。实例1:用一个通俗的比喻来形容,转载 2014-03-06 09:37:43 · 1161 阅读 · 3 评论 -
R语言多元分析系列
主成分分析(principal components analysis, PCA)是一种分析、简化数据集的技术。它把原始数据变换到一个新的坐标系统中,使得任何数据投影的第一大方差在第一个坐标(称为第一主成分)上,第二大方差在第二个坐标(第二主成分)上,依次类推。主成分分析经常用减少数据集的维数,同时保持数据集的对方差贡献最大的特征。这是通过保留低阶主成分,忽略高阶主成分做到的。这样低阶成分往往能够转载 2014-03-08 14:14:46 · 1754 阅读 · 0 评论 -
主成分分析在生命科学研究中的应用
主成分分析常常用于基因组全序列表达研究,但是,到底什么是主成分分析?如何将这种方法用于对高维度数据的分析中呢? 生命科学研究中采用的一些测定方法,对每个样品所采集的数据的变量要多于所测定的样品数。例如,DNA芯片及质谱仪可以对上百个样品中数以千计的mRNAs或蛋白质水平进行测定。诸如此类的高维度测定使得样品的分析结果很难清晰便捷地进行判断,也限制了对数据进行简单分析的应用。转载 2014-03-13 11:32:13 · 2713 阅读 · 0 评论