数据挖掘 R语言实战
北有鸣鹿
这个作者很懒,什么都没留下…
展开
-
2.R的数据的分类
#####2.2.2 R的数据的分类######1. numeric数值型x = c(1,2,3,4)xclass(x) #显示向量的数据类型#2. integer整数型x1 = as.integer(x) #将x转化为整数型数据x1class(x1)#3.logical逻辑型x=c(1,2,3,4)x==2!(x<2) #判断向量x中大于等于2的元素whic...原创 2018-10-20 16:40:44 · 503 阅读 · 0 评论 -
11.随机森林
#####11 随机森林#####library(randomForest)#####1.2.2 核心函数######这个软件包主要有5个函数,分别为:importance()、MDSplot()、rfImpute、treesize()以及#randomForest().#函数importance()用来提取在利用函数randomForest()建立随机森林过程中方程中各个变量的#...原创 2018-10-20 16:50:58 · 1110 阅读 · 1 评论 -
10.集成学习
#####10 集成学习######集成学习是近年来机器学习领域中的研究热点之一。经典的两个集成算法是Bagging和#AdaBoost,它们分别以某种巧妙的方式将若干基分类器的预测结果进行综合,已达到显#著提示分类效果的目的。#####10.2.2 核心函数######1. bagging函数#bagging(formula,data,mfinal=100,control)#fo...原创 2018-10-20 16:50:14 · 450 阅读 · 0 评论 -
9.决策树
#####9 决策树######从理论上构建决策树#1. 决策树的生成#2. 生成数的剪枝#分类树和回归树#分类树是针对于目标变量为离散型的情况,即最终目标是预测各样本的所属类别。#回归树适用于目标变量为连续型。#####9.1.3 常用算法######CART和C4.5#分类回归树CART,即可以建立分类树也可以建造回归树的算法。它是许多集成分类#算法的基分类器。如Boo...原创 2018-10-20 16:49:36 · 841 阅读 · 0 评论 -
8.判别分析
#####8 判别分析######判别分析就是根据已掌握的每个类别若干样本的数据信息,总结出客观事物分类的规律性,#建立判别公式和判别标准;在遇到新的样本点时,再根据已总结的判别公式和判别准则,#来判断出样本点所属的类别。#####8.1 概述######费希尔(Fisher)判别:线性判别分析方法(LDA)和二次判别方法(QDA);#贝叶斯(Bayes)判别:朴素贝叶斯分类(N...原创 2018-10-20 16:48:51 · 806 阅读 · 0 评论 -
7.聚类分析
#####7 聚类分析##########7.1.1 K-均值聚类######它是一种快速聚类方法,但对于异常值或极值敏感,稳定性差,因此适合处理分布集#中的大样本数据集。#思路:以随机选取的k(预设类别)个数作为起始中心店,将其余样本归入相似度最高#中心点所在的簇,再确立当前簇中样本坐标的均值为新的中心点,依次循环迭代下去,#直至所有样本所属类别不再变动。#####7.1.2...原创 2018-10-20 16:46:53 · 1083 阅读 · 1 评论 -
6.关联分析
#####6 关联分析######支持度,置信度,提升度#提升度(lift):表示在含有X的条件下同时含有Y的可能性与没有这个条件下项集中含有Y的可能性之比#####6.2 R中的实现######install.packages("arules")library(arules) #提供Apriori和Eclat算法#####6.2.2 核心函数######1. apriori函数...原创 2018-10-20 16:46:05 · 526 阅读 · 0 评论 -
5.数据预处理
#####5 数据预处理##########5.1 数据集加载#####library(lattice)library(nnet)library(MASS)library(mice)data(nhanes2) #获取nHanes2数据集nrow(nhanes2);ncol(nhanes2) #显示行列数summary(nhanes2)#从概括信息中可以看出,age和hyp是定...原创 2018-10-20 16:44:26 · 798 阅读 · 2 评论 -
4.探索性数据分析
#####4 探索性数据分析#####library(MASS)data(Insurance)#####4.2.1 变量概况#####attributes(Insurance) #获取Insurance数据集的属性列表str(Insurance) #查看Insurance数据集内部结构summary(Insurance) #查看Insurance数据集的变量概况...原创 2018-10-20 16:43:43 · 802 阅读 · 0 评论 -
3.用R获取数据
#####3 用R获取数据##########3.1 获取内置数据集##########3.1.1 datasets数据集#####data(package = "datasets") #获取datasets中所有数据集?AirPassengers #获取AirPassengers数据集的帮助文档#当我们选定要使用该数据集时,仅需要使用data()函数,即可调用得到目标数据集##...原创 2018-10-20 16:42:28 · 316 阅读 · 0 评论 -
12.支持向量机
#####12 支持向量机######支持向量机方法建立在统计学理论的VC维理论和结构风险最小远离基础上,根据有限样本在#模型的复杂性和学习能力之间寻求最佳折中,以期获得的最好的推广能力。其中模型的复杂#度指对特定训练样本的学习精度,学习能力是指无错误地识别任意样本的能力。#统计学习的目标从经验最小化变为了寻求经验风险与置信风险之和最小化,即结构风险最小化。#核函数,在样例线性不可分...原创 2018-11-17 22:51:34 · 501 阅读 · 0 评论