数据处理--基于KNN算法使用IMS对气味进行分类

最新推荐文章于 2024-08-14 12:02:23 发布

Ariel_jin

最新推荐文章于 2024-08-14 12:02:23 发布

阅读量397

点赞数

分类专栏：谱图的数据处理文章标签：算法

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/Ariel_jin/article/details/105460747

版权

谱图的数据处理专栏收录该内容

0 篇文章 0 订阅

订阅专栏

文章目录

1. Article

1.Scent classification by K nearest neighbors using ion-mobility spectrometry measurements

2. 主要工作和创新之处

• K最近领近算法将气味及其化学成分分类。

• 仅使用离子迁移谱测量法对气味/化学物质进行分类。

• 使用k维树搜索的分类大约快8倍。（降低运算成本和算法复杂度）

•通过主成分分析，忽略了71–86％的特征进行分类。

3. 算法原理

$d_E(X^{us},X_i)=\sqrt{\sum_{j=1}^{14}{(x_{ij}-x_j^{(us)})^2}}$

X^us为14维的IMS样本数据，X^us=[x₁^(us)…x₁₄^(us)]

X_i为训练集中的N个IMS样本，X_i=[x_i,1,…x_i,14]，i=1,…N

选择与样本X^us最邻近的K个同类样本作为其标签

K的选择
- 要在较大和较小中折中。通常，K为3、5或7
- 不使用固定的K，如：Wang等。（2006）提出了基于统计置信度的置信最近邻规则；程等。（2014）一个K基于稀疏学习的神经网络算法；张等。（2018）提出了一种建立决策树的方法

作者使用固定的K值 $\rightarrow$ 数据平滑 $\rightarrow$ 归一化

4. 数据预处理

4.1 平滑：

在这里插入图片描述

其中xij（t）([i=1,2…N, j=1,2…14])为IMS测量值，w是滑动MA的窗口长度

4.2 归一化:

在这里插入图片描述

$\bar{x}_{ij}$ 为归一化值， $\tilde{x}_{ij}$ 为平滑后的测量值， $u_j$ 为均值， $\sigma_j$ 为标准差

5. 算法优化

5.1 k-d树

IMS数据是14维的，为了增加精确度需要大的N，计算复杂度高必须降低K NN 的计算复杂度。可以使用三种不同的技术：①计算局部距离，②预先构造和编辑训练样本

③ķ维树（ķ -d树又名多维二叉搜索树）

新节点加入现有k-d树时，无需重新训练整个树
主要缺点是k -d树可能会错过真正的最近邻居，因为k -d树搜索是一种近似方法

对于较大的*N，*此方法通常效果很好

特别适合低维，实值数据（例如IMS数据）

5.2 PCA降维

目的

降低数据维度，减少计算成本
筛选有用的特征，避免被噪声干扰

具体步骤

① 使用PCA对离线训练集进行变换

得到14通道的经验均值
在这里插入图片描述

和包含主成分系数的14×14矩阵C

② 对一个未知新标准化IMS采样样本进行14维的PCA变换

在这里插入图片描述

其中 $\bar{X}^{us}$ 为归一化值， $y^(us)$ 为PCA变换后值。

无需对训练集进行重新训练即可添加新的训练样本

③ 对PCA-变换数据进行分类（使用KNN）

计算新样本 $y^(us)$ 与第 $i$ 个经过PCA转换的训练样本y i之间的欧几里得距离。
在这里插入图片描述

关注

0
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
数据处理--基于KNN算法使用IMS对气味进行分类

文章目录1. Article2. 主要工作和创新之处3. 算法原理4. 数据预处理4.1 平滑：4.2 归一化:5. 算法优化5.1 k-d树5.2 PCA降维1. Article1.Scent classification by K nearest neighbors using ion-mobility spectrometry measurements2. 主要工作和创新之处• K最...
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。