- 博客(8)
- 资源 (4)
- 收藏
- 关注
原创 Ridge Regression - 岭回归
Why 目的predictors X之间存在严重的多重共线性(multicollinarity, 即自变量之间线性相关-correlation很高)时,会导致p (|predictors|)< n (|observations|) 使得least-square(最小二乘法)计算公式β̂ =(XTX)−1XTY\hat{\beta} = (X^TX)^{-1}X^TY中的R=(XTX)R = (X^T
2015-03-17 01:57:21 2777
原创 WHYPER: Towards Automating Risk Assessment of Mobile Apps
又到了昊哥读论文时间. 今天搞的是一篇思路比较新颖的CCS 13’ paper. 作者来自于北卡州立(现在在UIUC)的谢涛组, 还算有点远房关系呢.之前一提到软件安全就离不开什么static /dynamic analysis, 不是model checking就是symbolic execution, 虽然每篇paper都用了很多吓人的terminology且都说自己有多么新颖, 站在外面看一看
2015-03-14 00:28:18 1332
原创 Binary Classification的另两种models
Why除了常用的logistic 模型做$Y = \{0, 1\}$的预测外, 还有Probit Regression 和Complimentary log-log 两种方法. Logistic 和probit 输出结果相似. 对于单变量, 没有证据表明哪种表现最突出. 但多变量时一般采用logistic. 考虑上篇的心脏病例子. $Y = 1$表有病, $Y = 0$没病. 现实中有病没病是通过测
2015-03-13 07:28:09 1632
原创 Logistic Regression -- 单自变量
Why传统的回归过程如线性回归解决的是YY为连续实数的情况。Logistic 回归是解决离散的分类问题,换句话说,要求YY是0或者1。 名字来自于指数分布家族中的Logistic 分布。What我们处理的是0-1分类问题. 输入n个样本, 第ii个样本为Xi,YiX_i, Y_i. XiX_i是有限的离散空间, YiY_i是00或11. 当X=xiX= x_i, Yi=1Y_i = 1发生的概率为
2015-03-11 12:52:32 2345
原创 统计学习
矩阵why为了更紧凑的表示一堆数并把复杂的乘除运算转化为简单的加减运算。what由向量引伸过来。矩阵是一个由数构成的表,而行列式是按一定运算法则确定的一个数。 Am∗nA_{m * n}表示一个m行n列的矩阵,当m=nm = n时,A被称作n阶方阵。 常见矩阵有单位矩阵: 主对角线上全是1,其余元素都是0的n阶方阵,记为InI_n.对称矩阵: ∀i,jaij=aji\forall i, j
2015-03-10 01:27:26 651
原创 部分最小二乘--PLS
Why和岭回归要解决的问题一样,同样是多重共线性导致的RR接近奇异使得β\beta的估算值β̂ \hat{\beta}过大。What定(Yi,xi)(Y_i, x_i)是第i个样本, xix_i是p维存在严重多重共线性(其实就是自变量有相关性,极端情况是线性代数里的线性相关)。和岭回归一样,首先做standardized(去中心干掉了截距,scale使得β\beta具有可比性;和correlatio
2015-03-09 13:03:16 3020 1
原创 线性代数的直观理解 -- Intuition in Linear Algebra
受《理解线性代数》启发,结合自身学习的经验,直观的总结我对线性代数的理解。强调直观是因为在这里不纠缠于数学的严谨性,所以如果追求数学严谨性和证明的还是去看教材比较好。统计的目标是对数表内各种数据进行挖掘从而找出隐含其中的关系,线性代数为统计提供了对数表的表达方式和对数表进行处理的工具。在初等数学中我们学过函数,用来表示的数据之间一种确定的关系,给定x一定能算出唯一的y。但现实中我们遇到的数据可就没有
2015-03-08 08:58:38 6246 1
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人