data mining
文章平均质量分 60
Distrlili
这个作者很懒,什么都没留下…
展开
-
Chapter 3-exercise
1.KNN分类和KNN回归的区别。首先,KNN分类解决的是分类问题,而KNN回归解决的是回归问题; 当响应变量是连续的,根据输入和回归函数,预测输出; 当响应变量是带有一定水平的因子型变量,就可以用来将输入变量进行分类。其次,从它们的作用可以看出,它们的作用不同,原理当然也不一样。 KNN分类把单个变量作为输入,根据相邻k个元素的最大类别进行分类;而KNN回归输入一个预测点x0x_0,确定k个原创 2015-12-10 21:47:10 · 590 阅读 · 0 评论 -
哑变量的处理
将几个离散变量转换为因子,目的便于下面一次性处理哑变量final_housecluster<−factor(clust cluster <- factor(clustcluster) final_housefloow<−factor(final h ouse floow <- factor(final_housefloow) final_housetype.new<−factor(final h原创 2017-01-20 11:00:25 · 3660 阅读 · 0 评论 -
k-means的分类数目
k-means聚类的类数确定根据类内离差平方和最小,类间离差平方和最大的原则自定义函数tot.wssplot <- function(data, nc, seed=1234){ #假设分为一组时的总的离差平方和 tot.wss <- (nrow(data)-1)*sum(apply(data,2,var)) for (i in 2:nc){ #必须指定随机种子数原创 2017-01-20 10:58:31 · 2947 阅读 · 0 评论 -
马尔科夫蒙特卡洛算法(MCMC)
趁着周末,学习了此算法。一个重要的作用就是用来模拟目标分布的样本。下面看看具体情况。1.名词解释 MCMC方法就是*构造合适的马尔科夫链进行抽样而使用蒙特卡洛方法进行积分计算,既然马尔科夫链可以收敛到平稳分布。我们可以建立一个以π为平稳分布的马尔科夫链,对这个链运行足够长时间之后,可以达到平稳状态。此时马尔科夫链的值就相当于在分布π(x)中抽取样本。利用马尔科夫链进行随机模拟的方法就是MCMC。第原创 2016-03-13 15:16:43 · 51350 阅读 · 3 评论 -
关联分析(一)
关联分析是数据挖掘中很重要的一类技术,其实就是挖掘事物之间的联系。关联分析研究的关系有两种:简单关联关系和序列关联关系。简单关联关系经典的购物篮分析中有个例子说,购买面包的顾客中80%会购买牛奶。面包和牛奶作为一种早餐的搭配是大家所接受的,二者没有共同属性,但是二者搭配后就是一顿美味早餐,这是一种简单的关联关系。序列关联关系比如买了iphone手机的顾客中80%会选择购买iphone手机保护壳,这就转载 2016-10-11 10:19:01 · 5488 阅读 · 0 评论 -
关联分析(二)
满足最小支持度和最小置信度的规则,叫做“强关联规则”。然而,强关联规则里,也分有效的强关联规则和无效的强关联规则。如果Lift(X→Y)>1,则规则“X→Y”是有效的强关联规则。如果Lift(X→Y) <=1,则规则“X→Y”是无效的强关联规则。关联规则的结果分类: 可行的规则(可实际操作) 平凡的规则(规则显而易见,不够有用) 令人费解的规则(可实施性的原因不明确)关联规则挖掘过程转载 2016-10-11 16:30:46 · 1263 阅读 · 0 评论 -
resampling method
交叉验证法(CV)和自助法(bootstrap)验证集方法:为了估计在Auto数据集上拟合多个线性模型所产生的测试错误率下面通过一个示例来学习其原理:set.seed(12)#划分观测集library(ISLR)#从1:392中随机抽取196个数,代表得到196个训练观测train <- sample(392,size=196)#然后用lm()函数中的subset选项,用训练数据集拟合一个线原创 2015-12-16 11:28:49 · 1845 阅读 · 0 评论 -
linear regression(二)
关于线性回归的知识还是很多,本文知识连接上文,总结下常见问题。回归模型中的其他注意事项:1.定性预测变量 之前假设的线性回归模型中的所有变量都是定量的(quantitative),往往有些预测变量是定性的(qualitative)二值预测变量: 如果一个定性变量(或称因子),只有两个水平或可能的取值,我们可以创建一个指示变量(indicator)或称哑变量(dummy variable)。定原创 2015-12-12 11:02:35 · 1189 阅读 · 0 评论 -
线性回归(一)
(一)简单线性回归 总体回归直线:Y=β0+β1X+ϵY=\beta_0+\beta_1X+\epsilon,ϵ\epsilon称为误差,服从零均值的正态分布,一般观察不到,其中Var(ϵ)=σ2Var\left(\epsilon\right)=\sigma^2,E(ϵ)=0E(\epsilon)=0通常假设误差ϵ\epsilon是独立于X的。探索总体变量最小二乘线是用样本估计总体的一个特征。原创 2015-12-09 20:19:31 · 3439 阅读 · 0 评论 -
chapter 3 -回归试验
线性回归library(MASS)#R中自带的有,未安装的时候可以有library(ISLR)#加载ISLR数据包#使用MASS库中的Boston房价数据集,查看变量名names(Boston)[1] "crim" "zn" "indus" "chas" "nox" "rm" "age" "dis" "rad" [10] "t原创 2015-12-12 11:32:20 · 1132 阅读 · 0 评论 -
chapter 4 exercise
problem13 对Boston数据集拟合分类模型来预测郊区犯罪率高于中位数还是你低于中位数。Boston$c.crim <- (Boston$crim > median(Boston$crim))#随机拆分数据集set.seed(122)rands <- rnorm(nrow(Boston))test <- (rands > quantile(rands,0.75))train <原创 2015-12-12 20:43:26 · 1588 阅读 · 1 评论 -
判别模型:(LDA),QDA,KNN以及逻辑斯蒂回归(二)
四种方法的比较: 逻辑斯蒂和LDA方法是紧密相连的,都产生线性决策边界,两者只是在拟合过程中有一些差异,所以两者得到的结果应该是接近的,但当LDA的前提假设-观测服从每一类协方差矩阵都相同的高斯分布-成立时,LDA应该比逻辑斯蒂回归能提供更好的结果。不同的是:逻辑斯蒂决策边界的参数是通过极大似然估计出来的,而LDA决策边界是通过估计正态分布均值和方差计算出来的。KNN分类器对决策边界的形状没有做出原创 2015-12-06 21:36:20 · 8189 阅读 · 0 评论 -
生成模型,判别模型,以及朴素贝叶斯
首先从监督学习来认识 1.监督学习的主要任务就是学习一个模型,应用这一模型,对给定的输入预测相应的输出。这一模型的一般形式为决策函数:Y=f(X)Y=f(X) 或条件概率分布:P(Y|X)P(Y|X)。2.监督学习的方法又可以分为生成方法和判别方法,所学到的模型分布称为生成模型和判别模型。3.生成方法由数据学习联合概率分布P(X,Y)P(X,Y),然后求出条件概率分布P(Y|X)P(Y|X)作为原创 2015-12-07 18:10:15 · 6886 阅读 · 0 评论 -
判别模型:logistic,GDA,QDA(一)
前言准备: 输入变量可称呼为预测变量、自变量、属性变量、解释变量,有时候就称为变量; 输出变量称为:响应变量或因变量。本篇目的:预测定性响应变量的方法及分类,预测一个定性响应变量也指对观测分类(classifying),因为它涉及到将观测分配到一个类别中。大部分的分类方法先从预测定性变量不同类别的概率开始,将分类问题作为概率估计的一个结果。分类方法: 逻辑斯蒂回归(logistic regre原创 2015-12-06 19:28:29 · 9583 阅读 · 1 评论 -
众数插值法
自定义众数函数stat.mode <- function(x, rm.na = TRUE){ if (rm.na == TRUE){ y = x[!is.na(x)] } res = names(table(y))[which.max(table(y))] return(res) }自定义函数,实现分组替补my.impute <- function(data, c原创 2017-01-20 11:17:59 · 2133 阅读 · 0 评论