2015年12月_Distrlili

原创 resampling method

交叉验证法（CV）和自助法（bootstrap）验证集方法：为了估计在Auto数据集上拟合多个线性模型所产生的测试错误率下面通过一个示例来学习其原理：set.seed(12)#划分观测集library(ISLR)#从1:392中随机抽取196个数,代表得到196个训练观测train <- sample(392,size=196)#然后用lm()函数中的subset选项，用训练数据集拟合一个线

2015-12-16 11:28:49 1845

原创 chapter 4 exercise

problem13 对Boston数据集拟合分类模型来预测郊区犯罪率高于中位数还是你低于中位数。Boston$c.crim <- (Boston$crim > median(Boston$crim))#随机拆分数据集set.seed(122)rands <- rnorm(nrow(Boston))test <- (rands > quantile(rands,0.75))train <

2015-12-12 20:43:26 1588 1

原创 chapter 3 -回归试验

线性回归library(MASS)#R中自带的有，未安装的时候可以有library(ISLR)#加载ISLR数据包#使用MASS库中的Boston房价数据集，查看变量名names(Boston)[1] "crim" "zn" "indus" "chas" "nox" "rm" "age" "dis" "rad" [10] "t

2015-12-12 11:32:20 1132

原创 linear regression（二）

关于线性回归的知识还是很多，本文知识连接上文，总结下常见问题。回归模型中的其他注意事项:1.定性预测变量之前假设的线性回归模型中的所有变量都是定量的（quantitative），往往有些预测变量是定性的（qualitative）二值预测变量：如果一个定性变量（或称因子），只有两个水平或可能的取值，我们可以创建一个指示变量（indicator）或称哑变量（dummy variable）。定

2015-12-12 11:02:35 1187

原创 Chapter 3-exercise

1.KNN分类和KNN回归的区别。首先，KNN分类解决的是分类问题，而KNN回归解决的是回归问题；当响应变量是连续的，根据输入和回归函数，预测输出；当响应变量是带有一定水平的因子型变量，就可以用来将输入变量进行分类。其次，从它们的作用可以看出，它们的作用不同，原理当然也不一样。 KNN分类把单个变量作为输入，根据相邻k个元素的最大类别进行分类；而KNN回归输入一个预测点x0x_0，确定k个

2015-12-10 21:47:10 590

原创线性回归（一）

（一）简单线性回归总体回归直线：Y=β0+β1X+ϵY=\beta_0+\beta_1X+\epsilon，ϵ\epsilon称为误差，服从零均值的正态分布，一般观察不到，其中Var(ϵ)=σ2Var\left(\epsilon\right)=\sigma^2，E(ϵ)=0E(\epsilon)=0通常假设误差ϵ\epsilon是独立于X的。探索总体变量最小二乘线是用样本估计总体的一个特征。

2015-12-09 20:19:31 3439

原创生成模型，判别模型，以及朴素贝叶斯

首先从监督学习来认识 1.监督学习的主要任务就是学习一个模型，应用这一模型，对给定的输入预测相应的输出。这一模型的一般形式为决策函数：Y=f(X)Y=f(X) 或条件概率分布：P(Y|X)P(Y|X)。2.监督学习的方法又可以分为生成方法和判别方法，所学到的模型分布称为生成模型和判别模型。3.生成方法由数据学习联合概率分布P(X,Y)P(X,Y)，然后求出条件概率分布P(Y|X)P(Y|X)作为

2015-12-07 18:10:15 6885

原创判别模型:(LDA),QDA,KNN以及逻辑斯蒂回归（二）

四种方法的比较：逻辑斯蒂和LDA方法是紧密相连的，都产生线性决策边界，两者只是在拟合过程中有一些差异，所以两者得到的结果应该是接近的，但当LDA的前提假设-观测服从每一类协方差矩阵都相同的高斯分布-成立时，LDA应该比逻辑斯蒂回归能提供更好的结果。不同的是：逻辑斯蒂决策边界的参数是通过极大似然估计出来的，而LDA决策边界是通过估计正态分布均值和方差计算出来的。KNN分类器对决策边界的形状没有做出

2015-12-06 21:36:20 8189

原创判别模型：logistic,GDA,QDA（一）

前言准备：输入变量可称呼为预测变量、自变量、属性变量、解释变量，有时候就称为变量；输出变量称为：响应变量或因变量。本篇目的：预测定性响应变量的方法及分类，预测一个定性响应变量也指对观测分类(classifying),因为它涉及到将观测分配到一个类别中。大部分的分类方法先从预测定性变量不同类别的概率开始，将分类问题作为概率估计的一个结果。分类方法：逻辑斯蒂回归（logistic regre

2015-12-06 19:28:29 9583 1

原创 EM 算法在GMM中的应用

EM算法是在概率模型中寻找参数最大似然估计的算法，其中概率模型依赖于无法观测到的隐变量。EM估计GMM参数 1）初始值：方1：协方差矩阵Σk设为单位矩阵，每个模型比例的先验概率πk=1/N，均值uk设为随机数。方2：由k均值（k-means）聚类算法对样本进行聚类，利用各类的均值作为uk，并计算Σk，πk取各类样本占样本总数的比例。一般选用方法一。 2）EM算法：E-Step ：E就是E

2015-12-03 21:45:14 981

原创 diff()差分

语法：（默认）diff(x, lag = 1, differences = 1, …) 若x是一个数值向量，则表示后一项减前一项，即滞后一阶差分； lag 表示滞后项，如 x<- 1:10滞后2步，lag=2diff(x, lag=2)#等价于x[3]-x[1],x[4]-x[2],....x[10]-x[8].[1] 2 2 2 2 2 2 2 2滞后1步，lag=1diff(x

2015-12-01 09:37:39 8338 1

原创 hist()直方图

hist(rnorm(1000,sd=.1),freq=FALSE) 纵轴表示概率密度函数。可以用lines(density(x))画出核密度估计曲线。hist(x)#纵轴表示频数

2015-12-01 09:05:59 939

G090909的博客