R语言3.5 判别分析

我的梦想就是做一条咸鱼

判别分析

多元中用于判别样本所属类型的一种统计分析方法。在已知的分类之下,对新的样本,可以利用此法选定一判别标准,以判定将该新样品放置于哪个类中。
判别分析的种类:确定性判别(Fisher型判别)、概率性判别(Bayes型判别)

确定性

1.线性判别分析
eg
今天和昨天湿温差x1及气温差x2是预报明天是否下雨的两个重要因子,试建立Fisher线性判别函数,如测得今天x1=8.1,x2=2.0试报明天是雨天还是晴天?
数据:在这里插入图片描述
基本统计分析
在这里插入图片描述
箱线图看出,两组湿温的均值差别不大,接下来做t检验在这里插入图片描述
p值>0.05,所以无显著差别
在这里插入图片描述
图中气温差有显著的差别
在这里插入图片描述
t检验,p值<0.05,有显著区别。
Logistic模型分析
在这里插入图片描述
注意G-1,结果发现变量x2对预测有明显影响。

线性判别分析函数lda的用法
lda(formula,data,…)
formula形如y~x1+x2+…的公式框架,data数据框
做判别分析时先画图直观看一下数据
在这里插入图片描述
图中看可以做判别分析。
做Fisher判别分析需要调用MASS包
在这里插入图片描述
Fisher线性判别函数
在这里插入图片描述
a1=-0.1035 a2=0.2248
进一步做判断
在这里插入图片描述
其中有两个判断错误。
在这里插入图片描述
符合率是0.9
两总体距离判别
在这里插入图片描述
马氏距离:
在这里插入图片描述
判别准则:
在这里插入图片描述
当方差相等时,距离判别等于Fisher判别
当方差不相等时不能用Fisher判别要有二次判别函数,qda函数的用法:qda(formula,data,…)
eg 如上用非线性判别模型
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
三个判错,符合率是0.85,这个例子用二次判别函数不如Fisher判别函数好。
预测:predict(qd,data.frame(x1=8.1,x2=2.0))
多总体距离判别
电视机品牌调查分析,建立判别函数,当一新产品其质量评分为8,功能评分为7.5,销售价格为65百元,问该厂产品的销售前景如何?在这里插入图片描述
做散点图根据不同的指标直观看分类情况:
d3.5=read.table(“clipboard”,header = T)
d3.5
attach(d3.5)
plot(Q,C)
text(Q,C,G3,adj = -0.8,cex = 0.75)
在这里插入图片描述
plot(Q,P)
text(Q,P,G3,adj = -0.8,cex = 0.75)
在这里插入图片描述
plot(C,P)
text(C,P,G3,adj = -0.8,cex = 0.75)
在这里插入图片描述
线性判别等方差
ld3=lda(G3~Q+C+P)
ld3
在这里插入图片描述
lp3=predict(ld3)
lG3=lp3$class
data.frame(G3,lG3)
在这里插入图片描述
ltab3=table(G3,lG3)
ltab3
在这里插入图片描述
符合率0.9


在这里插入图片描述
预测:predict(ld3,data.frame(Q=8,C=7.5,P=65))
在这里插入图片描述
二次判别(异方差)
qd3=qda(G3~Q+C+P)
qd3
qp3=predict(qd3)
qG3=qp3$class
data.frame(G3,lG3,qG3)
在这里插入图片描述
qtab3=table(G3,lG3)
qtab3
在这里插入图片描述
符合率0.95

概率性

Bayes判别法
以个体归属于某类的概率(或判别值)最大或判错总平均损失最小为标准。
eg如上
1.先验概率相等:q1=q2=q3=1/3
ld41=lda(G3~Q+C+P,prior=c(1,1,1)/3)
ld41
在这里插入图片描述
2.先验概率不等:q1=5/20,q2=8/20,q3=7/20
ld42=lda(G3~Q+C+P,prior=c(5,8,7)/20)
ld42
在这里插入图片描述
1.2两种结果比较:
Z1=predict(ld41)
Z2=predict(ld42)
data.frame(G3,ld41G=Z1$ class,ld42=Z2$ class)
在这里插入图片描述
T1=table(G3,Z1$ class)
T1
sum(diag(T1))/sum(T1)
T2=table(G3,Z2$ class)
T2
sum(diag(T2))/sum(T2)
在这里插入图片描述
模型的后验概率
在这里插入图片描述
在这里插入图片描述
预测分类:
在这里插入图片描述
在这里插入图片描述
都分为第二类。
在这里插入图片描述

目  录 前言 第1 章 统计思维与网站分析 1 1.1 不确定与确定 1 1.2 统计分析方法 4 1.2.1 细分分析 4 1.2.2 对比分析 6 1.2.3 趋势分析 7 1.3 网站分析概要 7 1.3.1 解决用户需求 7 1.3.2 寻找新的用户需求 10 第2 章 R 语言数据操作基础 11 2.1  R 简介 11 2.2 了解R 软件 11 2.2.1 软件安装 11 2.2.2  R 软件界面 12 2.2.3 工作目录 14 2.2.4 命令行交互 15 2.2.5 命令脚本文件 16 2.2.6 工作空间数据 16 2.2.7 帮助 17 2.2.8  R 语言入门 18 2.2.9 扩展算法包 19 2.3  R 语言的数据类型 21 2.4 对象及其属性 23 2.4.1 固有属性:模式和长度 24 2.4.2 读取和设置属性值 24 2.4.3 对象的搜索和删除 25 2.5 向量 26 2.5.1 创建向量 26 2.5.2 向量索引 26 2.5.3 向量编辑 29 2.5.4 向量排序 29 2.5.5 向量去重 30 2.5.6 缺失值处理 30 2.5.7 向量间操作 31 2.6 矩阵和数组 31 2.6.1 创建矩阵 32 2.6.2 矩阵索引 33 2.6.3 矩阵编辑 34 2.6.4 矩阵的运算 35 2.6.5 数组 37 2.6.6  apply 函数应用 38 2.7 列表和数据框 39 2.7.1 列表的创建和索引 39 2.7.2 列表编辑 40 2.7.3 数据框的创建和名称 40 2.7.4 数据框索引 41 2.7.5 数据框编辑 43 VII 2.7.6 缺失值处理 44 2.8 因子 44 2.8.1 无序和有序因子 45 2.8.2 连续数据的离散化 46 2.9 字符串操作 47 2.9.1 字符串长度 nchar 48 2.9.2 字符串合并和分割 48 2.9.3 字符串内部字符的读取 和替换 49 2.9.4 正则表达式 52 2.10 常用数据的创建 53 2.10.1 因子序列的创建 53 2.10.2 等差序列的创建 54 2.10.3 随机抽样 sample 54 2.10.4 重复序列 rep 55 2.10.5 概率分布 55 2.11 控制流 58 2.11.1 分支语句 58 2.11.2 循环语句 59 2.12 运算符、函数和过程 61 2.12.1 常用运算符 61 2.12.2 函数 62 2.12.3 过程 63 2.13 数据的读写等操作 64 2.13.1 读取数据 64 2.13.2 输出数据 68 第3 章 R 语言的绘图基础 69 3.1 概述 69 3.2 颜色以及文字/ 点/ 线参数的 设置 69 3.2.1 颜色 71 3.2.2 文字元素相关参数设置 76 3.2.3 点元素相关参数设置 77 3.2.4 线元素相关参数设置 79 3.3 低级绘图函数 80 3.3.1 引例 80 3.3.2 标题 81 3.3.3 图例 83 3.3.4 坐标轴 84 3.3.5 边框 88 3.3.6 网格线 89 3.3.7 点 90 3.3.8 线 91 3.3.9 文字 94 3.3.10 多边形 96 3.4 高级绘图函数以及常用绘图 应用 96 3.4.1 图形类型的选择 96 3.4.2 散点图 98 3.4.3 气泡图 100 3.4.4 曲线图 102 3.4.5 柱状图 105 3.4.6 条形图 109 3.4.7 饼图 111 3.4.8 面积堆积图 115 3.4.9 直方图和密度曲线图 118 3.5 绘图窗口操作函数 120 3.5.1 单一窗口中的子绘图 区域布局 120 3.5.2 绘图窗口操作 120 第4 章 单指标分析 121 4.1 指标描述 121 4.1.1 平均值和集中趋势 121 4.1.2 正态分布 126 VIII 4.1.3 频数分析 130 4.1.4 描述性分析指标 131 4.2 异常点监控 133 4.2.1 概述 133 4.2.2  P 控制图:监控转化率 型指标 135 4.2.3 单值 – 均值控制图 142 4.2.4 单值 – 移动极差控制图 147 4.3 连续型指标的对比 150 4.3.1 数据变换 150 4.3.2 假设检验 152 4.3.3 相同指标内的两组数 对比:T 检验 153 4.3.4 相同指标内的多组数据对比: 单因素方差分析 156 4.3.5 单因素协方差分析 163 4.4 分类型指标的对比 167 4.4.1 列联表分析 167 4.4.2 卡方独立性检验 172 第5 章 时间序列分析 177 5.1 时间序列 177 5.2 增长率 180 5.2.1 环比增长率 180 5.2.2 同比增长率 181 5.3 移动平均 181 5.3.1 数学原理概述 181 5.3.2 filter 函数 182 5.3.3  R 语言实现 184 5.4 指数平滑 185 5.4.1 一次指数平滑 186 5.4.2 二次指数平滑 187 5.4.3 三次指数平滑 191 5.5  ARIMA 模型 194 5.5.1 自相关性 194 5.5.2 平稳性和白噪声 199 5.5.3  MA 滑动平均过程 200 5.5.4  AR 自回归过程 202 5.5.5  ARMA 自回归滑动平均 混合过程 203 5.5.6 检验模型质量 205 5.5.7 非平稳时间序列的 ARIMA 过程 208 第6 章 连续指标建模:回归分析 213 6.1 一元线性回归分析 213 6.1.1 引例 213 6.1.2 一元线性回归分析的 原理及 R 语言实现 214 6.2 多元回归分析 221 6.2.1 引例 222 6.2.2 多元线性回归分析建模 222 6.2.3 模型修正函数 update() 223 6.2.4 逐步回归分析函数 step() 226 6.2.5 自变量中包含分类型 数据的回归分析 228 6.3  Logic 回归分析 230 6.3.1 引例及数据 230 6.3.2  logic 分析的原理 230 6.3.3  R 语言实现 232 6.4 回归树CART 237 6.4.1  rpart 函数 237 6.4.2 预测及模型性能衡量 240 6.4.3 过度拟合和剪枝 240 IX 第7 章 分类指标建模: 分类分析 243 7.1 决策树分类分析 243 7.1.1 概述 243 7.1.2  C4.5 算法 247 7.1.3  CART 算法 258 7.1.4 条件推理决策树算法 265 7.1.5 随机森林算法 267 7.2 贝叶斯分类 268 7.2.1 贝叶斯定理 268 7.2.2 朴素贝叶斯分类器 270 7.3 支持向量机SVM 271 7.3.1 原理 271 7.3.2 在 R 语言中实现非线性 SVM 分析 273 7.4 人工神经网络 274 7.4.1 神经元 274 7.4.2 两层网络 275 7.4.3 反向传播算法 276 7.4.4  R 语言实现 282 7.4.5 隐藏层中神经单元数 目的确定 283 7.5 分类器的性能评估 284 7.5.1 混淆矩阵 284 7.5.2  ROC 曲线和AUC 287 7.5.3 提升度和提升曲线 291 7.5.4 洛伦兹曲线 292 第8 章 样本细分 293 8.1 数据降维 293 8.1.1 问题引入 293 8.1.2 因子分析概述 294 8.1.3  factanal 函数 296 8.1.4 实例:问卷调查的因子 分析 297 8.2 聚类分析 303 8.2.1 距离 303 8.2.2 层次聚类 313 8.2.3  kmeans 聚类 318 8.3 样本判别 321 8.3.1  knn(k 最近邻分类) 算法 323 8.3.2 实例:基于 knn 算法的 商品推荐系统 324 第9 章 样本间的关系 329 9.1 关联分析 329 9.1.1 关联分析的原理 329 9.1.2  Apriori 算法的R 语言 实现 331 9.2 序列模式关联分析 334 9.2.1 序列模式关联分析的 原理 334 9.2.2 序列模式关联分析的 R 语言实现 336 9.2.3 实例:用户点击页面的 行为分析 338 9.3 关系网络分析 346 9.3.1 网络关系分析的基本 概念 346 9.3.2 中心度 356 9.3.3 中心势 362 9.3.4 社群发现 363 9.3.5 实例:分析微博的 传播特性 367 9.3.6 实例:购物车商品分类 分析 370
相关推荐
©️2020 CSDN 皮肤主题: 游动-白 设计师:白松林 返回首页