近红外光谱建模之样本集划分python实现(KS算法)

一 Kennard-Stone算法原理(KS算法)

KS算法原理:把所有的样本都看作训练集候选样本,依次从中挑选样本进训练集。首先选择欧氏距离最远的两个样本进入训练集,其后通过计算剩下的每一个样品到训练集内每一个已知样品的欧式距离,找到距已选样本最远以及最近的两个样本,并将这两个样本选入训练集,重复上述步骤直到样本数量达到要求。

欧式距离计算公式:

Xp,Xq表示两个不同的样本,N代表样本的光谱波点数量

二 python代码实现 

def ks(x, y, test_size=0.2):
    """

    :param x: shape (n_samples, n_features)
    :param y: shape (n_sample, )
    :param test_size: the ratio of test_size (float)
    :return: spec_train: (n_samples, n_features)
             spec_test: (n_samples, n_features)
             target_train: (n_sample, )
             target_test: (n_sample, )
    """
    M = x.shape[0]             
    N = round((1-test_size) * M)
    samples = np.arange(M)     

    D = np.zeros((M, M))       

    for i in range((M-1)):
        xa = x[i, :]
        for j in range((i+1), M):
            xb = x[j, :]
            D[i, j] = np.linalg.norm(xa-xb) 

    maxD = np.max(D, axis=0)             
    index_row = np.argmax(D, axis=0)    
    index_column = np.argmax(maxD)      

    m = np.zeros(N)
    m[0] = np.array(index_row[index_column])
    m[1] = np.array(index_column)
    m = m.astype(int)                   
    dminmax = np.zeros(N)
    dminmax[1] = D[m[0], m[1]]  

    for i in range(2, N):  
        pool = np.delete(samples, m[:i]) 
        dmin = np.zeros((M-i))        
        for j in range((M-i)):        
            indexa = pool[j]         
            d = np.zeros(i)           
            for k in range(i):         
                indexb = m[k]         
                if indexa < indexb:   
                    d[k] = D[indexa, indexb]
                else:
                    d[k] = D[indexb, indexa]
            dmin[j] = np.min(d)    
        dminmax[i] = np.max(dmin)   
        index = np.argmax(dmin)     
        m[i] = pool[index]          

    m_complement = np.delete(np.arange(x.shape[0]), m)    

    spec_train = x[m, :]
    target_train = y[m]
    spec_test = x[m_complement, :]
    target_test = y[m_complement]
    return spec_train, spec_test, target_train, target_test

 

  • 7
    点赞
  • 105
    收藏
    觉得还不错? 一键收藏
  • 12
    评论
Python中,可以使用红外光算法来进行。其中一种常用的算法是SPXY算法(sample set partitioning based on joint x-y distance)。该算法是在KS算法的基础上发展而来的,其在样品间距离计算时同时考虑了x变量和y变量。具体的距离计算公式可以参考。 而KS算法(Kolmogorov-Smirnov algorithm)是一种常用的数据挖掘算法,它将所有样本都看作训练集候选样本,并依次从中挑选样本进入训练集。它首先选择欧氏距离最远的两个样本进入训练集,然后通过计算剩下的每一个样品到训练集内每一个已知样品的欧式距离,找到距离已选样本最远以及最的两个样本,并将这两个样本选入训练集。重复这个步骤,直到训练集的样本数量达到要求。更详细的原理可以参考。 因此,使用Python进行红外光时,可以根据SPXY算法KS算法的原理来选择适当的距离计算方法和样本选择策略,以立准确的型。<span class="em">1</span><span class="em">2</span> #### 引用[.reference_title] - *1* [红外光样本划分python实现(SPXY算法)](https://blog.csdn.net/Joseph__Lagrange/article/details/95043212)[target="_blank" data-report-click={"spm":"1018.2226.3001.9630","extra":{"utm_source":"vip_chatgpt_common_search_pc_result","utm_medium":"distribute.pc_search_result.none-task-cask-2~all~insert_cask~default-1-null.142^v93^chatsearchT3_2"}}] [.reference_item style="max-width: 50%"] - *2* [红外光样本划分python实现KS算法)](https://blog.csdn.net/Joseph__Lagrange/article/details/95042656)[target="_blank" data-report-click={"spm":"1018.2226.3001.9630","extra":{"utm_source":"vip_chatgpt_common_search_pc_result","utm_medium":"distribute.pc_search_result.none-task-cask-2~all~insert_cask~default-1-null.142^v93^chatsearchT3_2"}}] [.reference_item style="max-width: 50%"] [ .reference_list ]

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 12
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值