22C 古代玻璃制品的成分分析与鉴别做题笔记
第一题:外观与风化状态关系分析、化学含量统计规律、含量预测。
第二题:亚类划分。
第三题:分类预测。
第四题:相关性和差异性分析。
关键词:聚类、偏最小二乘、回归、SVM、决策树、相关性评价
数据处理方法:
n元成分数据处理方法—中心对数变换(高维、稀疏、偏移)
C155
聚类可以将大量特征提取到想要的个数,也可以用来给无标签数据增加标签。
第一题
- Pearson卡方检验: 定类样本间的相关性、期望计数大于5
- 统计描述:变异系数描述离散程度、偏度描述对称程度、峰度描述尖度程度、箱线图、直方图
- 聚类可用于确定关键指标,甚至可以找到时序关系
第二题
-
变量太多时,使用R型聚类进行指标分类,再选取特征变量的进行Q型聚类。(否则影响聚类效率和效果)
其中,用指标的Pearson相关系数进行R型聚类。(定量与定量间)
-
敏感性分析就是对代表性特征变量进行随机扰动,分析一项分类结果与否。扰动范围再0.1-0.2内都算良好。
第三题
聚类相当于无监督学习,可以按照已知标签数量进行分类预测。
可以用聚类检验分类器的分类效果。(交叉验证)
第四题
灰色关联求化学成分间的关联性,一般
C065
第一题
- 大样本做卡方 小样本做Fisher精确检验
第二题
-
样本数量有限,决策树效果差
逻辑回归过拟合,说明样本线性可分
小样本、维度高适合SVM :基于结构风险最小原理和间隔最大化策略,该模型优化函数为xxx
由散点图看出线性可分,使用线性核函数
-
使用层次聚类对多个数据特征进行探索性分析
在最大距离的垂直线处设置阈值得到不同聚类,再通过散点图观看区分度较好的特征
-
层次聚类的结果反应了化学成分的相似性,用向量机找出更准确的划分边界。
相当于无监督学习找标签,用监督学习验证亚类划分效果。与C155的第三题相同。
-
敏感性分析,对截距施加扰动。
第四题
-
主成分分析:主成分分析是对数据矩阵奇异性分解结果的解释过程
除了用于数据降维,也能解读变量之间的相关关系(要进行中心对数变换,左右奇异向量能反映成分数据的相对尺度)
-
协方差双标图进行探索性分析,与变异矩阵密切相关
-
分析主成分载荷矩阵,分析元素组合以及相似性,从而得到相关性。
差异性没有分析。
C255
第一题
-
虚拟变量+spearman+卡方检验
使用迪利克雷回归进行预测 迪利克雷回归:定类变量的回归
第二题
- 先聚类获取标签
- 再通过偏最小二乘判别分析 + VIP值寻找划分依据
第三题
决策树 + 偏最小
第四题
- 相关性分析:热力图
- 差异性分析:成分之间是配对的,使用非参数配对样本w检验