关于 高维数据论文 的学习(2)

《高维数据可视分析中维度及数据布局方法研究》

回归分析:利用数理统计的方法揭示两种或多种维度之间的相互依赖关系(相关性)。若无,可视化效果是一群离散点;若有,样本具有某种趋势。聚类分析将数据中的样本按一定关系划分,同组之间相似性大。

平行坐标:可精准的显示样本在各个维度上的分布情况。雷达图:平行坐标的变形,用于财务、气象、多指标分析等多维数据的可视化。RadViz:雷达图的改进形式,将高维数据的维度以点的形式均匀的投影到二维平面的单位圆周上,样本数据以点的形式投影到同一个圆,可观察样本的分布情况。

改进:

一个基于MDS算法和一个基于TSP算法改进RadViz图中维度投影到平面上的布局方法。

1.以Pearson相关系数建立维度相关性矩阵—>通过变换函数将维度相关性矩阵变换为平面上维度点之间的欧氏距离矩阵—>采用TSP算法将维度投影到固定长度的线段上成为维度点—>将线段映射到平面的单位圆周上,得到数据维度向平面点的投影—>CM算法调整维度点在圆周上的位置—>实现RadViz方法中对维度相关性的展示。

2.将维度投影到一维线段上并映射到单位圆周上,实现数据维度平面点的投影—>采用CM算法调整维度点在圆周上的位置,使应力误差最小—>确定维度点在平面上的位置—>采用广义重心坐标GBC,将样本点投影到圆中实现RadViz的可视化。

MDS算法中距离矩阵的PTI指标、点的初始位置生成方法和点位置的调整策略三方面。提出改进MDS算法,降低全局应力误差值的方法:

1.定义距离PTI指标,随机生成PTI值不同的距离矩阵,并根据MDS算法进行一维和二维的降维计算,获得相应的全局应力误差,得出反相关关系,得出在服从距离矩阵中的数值大小单调性约束的条件下,对距离矩阵中的数值进行幂函数运算,提高PTI指标,降低MDS算法降维过程中的全局应力误差。

2.针对Random方法实现点的初始位置生成的方式,导致MDS算法的最终结果不可复制的问题,提出基于TSP算法实现点的初始位置生成和一种DRGT算法实现点的初始位置生成来代替Random方法,实现可复制性。

3.针对位移策略中力导向算法不收敛的问题,设计了SEFM算法代替导向算法,通过对力导向算法和SEFM算法进行加权的方式,降低全局应力误差,最后将不同的点的初始位置生成方法和不同的位移策略两两组合实现MDS降维,全局应力误差的变化情况进行对比,获得更好的MDS 算法。
在这里插入图片描述

基于非线性降维方法的高维数据可视化平台研究与实现

基于非线性降维方法的高维数据可视化平台,后端框架采用Django,前端框架使用bootstrap,并基于D3.js、Highcharts 实现平行坐标和散点矩阵进行数据可视化,降维方法实现了PCA、t-SNE和LargeVis 降维算法。数据存储使用JSON对象数组存储上传的数据样本。在此基础上,借助于交互式的可视化体验和参数调节功能并加入描述统计分析帮助用户分析不同维度数据的特征和维度之间的关联性,简化用户操作流程。
在这里插入图片描述

基于维度扩展和重排的类圆映射可视化聚类方法

方法:利用近邻传播聚类算法和多目标聚类可视化评价指标对高维数据进行维度扩展,然后对扩展后的高维数据进行维度相关性重排,最后利用类圆映射机制降维至二维可视化空间,实现高维数据有效可视化聚类。

维度扩展和重排策略能有效提高类圆映射可视化方法聚类效果,其中的维度扩展策略也能显著提高其它径向布局可视化方法聚类效果,泛化性能较好。

在这里插入图片描述

径向布局可视化方法主要利用分布在圆弧上的维度锚点( Dimensional Anchors,DAs) 表征数据集维度,将数据集映射为二维空间的一个个点,从而在低维空间表达任意高维数据。此外,径向布局可视化方法将具有相似特征的数据投影至相近的映射空间。相比传统的聚类方法,径向布局可视化方法不仅能直观显示高维数据的聚类结果,更有助于探索不易理解的聚类过程。

在这里插入图片描述

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值