特征选择之relief及reliefF算法

relief算法

Relief算法最早由Kira提出,最初局限于两类数据的分类问题。Relief算法是一种特征权重算法(Feature weighting algorithms),根据各个特征和类别的相关性赋予特征不同的权重,权重小于某个阈值的特征将被移除。Relief算法中特征和类别的相关性是基于特征对近距离样本的区分能力。算法从训练集D中随机选择一个样本R,然后从和R同类的样本中寻找最近邻样本H,称为Near Hit,从和R不同类的样本中寻找最近邻样本M,称为NearMiss,然后根据以下规则更新每个特征的权重:如果R和Near Hit在某个特征上的距离小于R和Near Miss上的距离,则说明该特征对区分同类和不同类的最近邻是有益的,则增加该特征的权重;反之,如果R和Near Hit在某个特征的距离大于R和Near Miss上的距离,说明该特征对区分同类和不同类的最近邻起负面作用,则降低该特征的权重。以上过程重复m次,最后得到各特征的平均权重。特征的权重越大,表示该特征的分类能力越强,反之,表示该特征分类能力越弱。Relief算法的运行时间随着样本的抽样次数m和原始特征个数N的增加线性增加,因而运行效率非常高。

假设一个样例X有p个特征,S为样本量为n的训练样本集, F 即 { f 1 , f 2 , . . . , f p } F即\{f_1,f_2,...,f_p\} F{f1,f2,...,fp}为特征集,一个样例X由p维向量 ( x 1 , x 2 , . . . , x p ) (x_1,x_2,...,x_p) (x1,x2,...,xp)构成,其中, x j x_j xj为X的第j个特征的值。
relief算法可以解决名义变量和数值变量,两个样例X和Y的特征的值的差可由下面的函数来定义:
x k 和 y k x_k和y_k xkyk为名义变量时
d i f f ( x k , y k ) = { 1 如果 x k 和 y k 不相同 0 如果 x k 和 y k 相同 diff(x_k,y_k)=\begin{cases}1 & {如果x_k和y_k不相同}\\ 0 & {如果x_k和y_k相同}\end{cases} diff(xk,yk)={10如果xkyk不相同如果xkyk相同
x k 和 y k x_k和y_k xkyk为数值变量时
d i f f ( x k , y k ) = ( x k − y k ) / ν k diff(x_k,y_k)=(x_k-y_k)/\nu_k diff(xk,yk)=(xkyk)/νk
ν k \nu_k νk为归一化单位,把diff值归一到[0,1]区间,可以在之前先把数值变量进行归一化。

relief在下列情况有效:(1)相关性水平对于相关的特征很大,对于不相关的特征很小,(2) τ \tau τ用来选择相关特征,去除不相关特征。
relief计算复杂度: Θ ( p m n ) \Theta(pmn) Θ(pmn),p为特征数,m为迭代次数,n为样例数

relief算法:

输入:样本集S,抽样次数m,特征权重阈值 τ \tau τ
输出:选择后的特征集

把S分成 S + S^+ S+={正例}和 S − S^- S={负例}
权重W=(0,0,…,0)
For i = 1 to m
\quad 随机选择一个样例 X ∈ S X\in S XS
\quad 随机选择一个距离X最近邻的一个正例 Z + ∈ S + Z^+\in S^+ Z+S+
\quad 随机选择一个距离X最近邻的一个负例 Z − ∈ S − Z^-\in S^- ZS
\quad if X是一个正例
\quad \quad then Near-hit= Z + Z^+ Z+; Near-miss= Z − Z^- Z
\quad \quad else Near-hit= Z − Z^- Z;Near-miss= Z + Z^+ Z+
\quad for i = 1 to p
\quad \quad W i = W i − d i f f ( x i , n e a r − h i t i ) 2 + d i f f ( x i , n e a r − m i s s i ) 2 W_i=W_i-diff(x_i,near-hit_i)^2+diff(x_i,near-miss_i)^2 Wi=Widiff(xi,nearhiti)2+diff(xi,nearmissi)2
relevance= 1 m W \frac{1}{m}W m1W
for i = 1 to p
\quad if r e l e v a n c e i ≥ τ relevance_i \ge \tau relevanceiτ
\quad \quad then f i f_i fi是一个相关的特征
\quad \quad else f i f_i fi不是相关的特征

reliefF算法

由于Relief算法比较简单,但运行效率高,并且结果也比较令人满意,因此得到广泛应用,但是其局限性在于只能处理两类别数据,因此1994年Kononeill对其进行了扩展,得到了ReliefF作算法,可以处理多类别问题。该算法用于处理目标属性为连续值的回归问题。ReliefF算法在处理多类问题时,每次从训练样本集中随机取出一个样本R,然后从和R同类的样本集中找出R的k个近邻样本(near Hits),从每个R的不同类的样本集中均找出k个近邻样本(near Misses),然后更新每个特征的权重,如下式所示:
W ( A ) = W ( A ) − Σ j = 1 k d i f f ( A , R , H j ) / ( m k ) + Σ C ∉ c l a s s ( R ) [ p ( C ) 1 − p ( c l a s s ( R ) ) Σ j = 1 k d i f f ( A , R , M j ( C ) ) ] / ( m k ) W(A)=W(A)-\Sigma_{j=1}^kdiff(A,R,H_j)/(mk)+\Sigma_{C\notin class(R)}[\frac{p(C)}{1-p(class(R))}\Sigma_{j=1}^kdiff(A,R,M_j(C))]/(mk) W(A)=W(A)Σj=1kdiff(A,R,Hj)/(mk)+ΣC/class(R)[1p(class(R))p(C)Σj=1kdiff(A,R,Mj(C))]/(mk)
上式中, d i f f ( A , R 1 , R 2 ) diff(A,R_1,R_2) diff(A,R1,R2)表示样本 R 1 和 R 2 R_1和R_2 R1R2在特征A上的差, M j ( C ) M_j(C) Mj(C)表示类 C ∉ c l a s s ( R ) C\notin class(R) C/class(R)中第j个最近邻样本。如下式:
d i f f ( A , R 1 , R 2 ) = { ∣ R 1 [ A ] − R 2 [ A ] ∣ m a x ( A ) − m i n ( A ) If A Is Continuous 0 I f A I s D i s c r e t e A n d R 1 [ A ] = R 2 [ A ] 1 i f A I s D i s c r e t e A n d R 1 [ A ] ≠ R 2 [ A ] diff(A,R_1,R_2)=\begin{cases} \frac{|R_1[A]-R_2[A]|}{max(A)-min(A)} & \text{If A Is Continuous}\\ 0 & If A Is Discrete And R_1[A]=R_2[A]\\ 1 & if A Is Discrete And R_1[A] \ne R_2[A]\end{cases} diff(A,R1,R2)= max(A)min(A)R1[A]R2[A]01If A Is ContinuousIfAIsDiscreteAndR1[A]=R2[A]ifAIsDiscreteAndR1[A]=R2[A]

reliefF算法:
输入:训练集D,抽样次数m,特征权重阈值 δ \delta δ,最近邻样本个数k,
输出:各个特征的特征权重T。

  1. 置所有特征权重为0,T为空集
  2. for i = 1 to m
    \qquad 从D中随机选择一个样本R;
    \qquad 从R的同类样本集中找到R的k个最近邻 H j ( j = 1 , 2 , . . , k ) H_j(j=1,2,..,k) Hj(j=1,2,..,k),从每一个不同类样本集中找到k个最近邻 M j ( C ) M_j(C) Mj(C);
  3. for A=1 to N(all features)
    \qquad W ( A ) = W ( A ) − Σ j = 1 k d i f f ( A , R , H j ) / ( m k ) + Σ C ∉ c l a s s ( R ) [ p ( C ) 1 − p ( c l a s s ( R ) ) Σ j = 1 k d i f f ( A , R , M j ( C ) ) ] / ( m k ) W(A)=W(A)-\Sigma_{j=1}^kdiff(A,R,H_j)/(mk)+\Sigma_{C\notin class(R)}[\frac{p(C)}{1-p(class(R))}\Sigma_{j=1}^kdiff(A,R,M_j(C))]/(mk) W(A)=W(A)Σj=1kdiff(A,R,Hj)/(mk)+ΣC/class(R)[1p(class(R))p(C)Σj=1kdiff(A,R,Mj(C))]/(mk)
    end.

代码实现:FeatureSelectionsAndExtractions

  • 45
    点赞
  • 281
    收藏
    觉得还不错? 一键收藏
  • 12
    评论
relief算法是一种常用的特征选择方法,用于从原始数据集中选择出最具代表性的特征集合。其基本思想是通过计算特征与类别之间的相关性,来评估每个特征的重要性,然后选择出权重最高的一组特征作为最终的特征集合。 relief算法的基本步骤如下: 1. 初始化权重向量w为0; 2. 随机选择一个样本x; 3. 找到与x最近的同类样本和异类样本,分别记为near_hit和near_miss; 4. 更新权重向量w,对于每一个特征i,有: - 如果x的特征i与near_hit的特征i相同,w[i] = w[i] + 1; - 如果x的特征i与near_miss的特征i相同,w[i] = w[i] - 1; 5. 重复步骤2-4,直到所有样本都被处理过; 6. 根据权重向量w的大小,选择权重最高的k个特征作为最终的特征集合。 下面是C++实现的relief算法代码: ```c++ #include <iostream> #include <vector> #include <cmath> using namespace std; // 计算两个样本之间的距离 double distance(vector<double>& x, vector<double>& y) { double d = 0.0; for (int i = 0; i < x.size(); ++i) { d += pow(x[i] - y[i], 2); } return sqrt(d); } // 计算relief算法中的权重向量 vector<double> relief(vector<vector<double>>& data, vector<int>& labels, int k) { // 初始化权重向量w为0 vector<double> w(data[0].size(), 0.0); // 遍历每一个样本 for (int i = 0; i < data.size(); ++i) { vector<double>& x = data[i]; int label = labels[i]; // 找到与x最近的k个样本 vector<pair<double, int>> distances; for (int j = 0; j < data.size(); ++j) { if (i == j) continue; double d = distance(x, data[j]); distances.push_back(make_pair(d, j)); } sort(distances.begin(), distances.end()); // 找到与x最近的同类样本和异类样本 int near_hit = -1, near_miss = -1; for (int j = 0; j < distances.size(); ++j) { int idx = distances[j].second; if (labels[idx] == label) { near_hit = idx; break; } } for (int j = distances.size() - 1; j >= 0; --j) { int idx = distances[j].second; if (labels[idx] != label) { near_miss = idx; break; } } // 更新权重向量w if (near_hit != -1) { for (int j = 0; j < x.size(); ++j) { if (x[j] == data[near_hit][j]) { w[j] += 1.0; } } } if (near_miss != -1) { for (int j = 0; j < x.size(); ++j) { if (x[j] == data[near_miss][j]) { w[j] -= 1.0; } } } } // 根据权重向量w的大小,选择权重最高的k个特征作为最终的特征集合 vector<pair<double, int>> sorted_w; for (int i = 0; i < w.size(); ++i) { sorted_w.push_back(make_pair(w[i], i)); } sort(sorted_w.begin(), sorted_w.end(), greater<pair<double, int>>()); vector<double> result(k, 0.0); for (int i = 0; i < k; ++i) { result[i] = sorted_w[i].second; } return result; } int main() { // 测试数据集 vector<vector<double>> data = { {1.1, 2.2, 3.3}, {2.2, 3.3, 4.4}, {3.3, 4.4, 5.5}, {4.4, 5.5, 6.6}, {5.5, 6.6, 7.7}, {6.6, 7.7, 8.8}, {7.7, 8.8, 9.9}, {8.8, 9.9, 10.0}, {9.9, 10.0, 11.1}, {10.0, 11.1, 12.2} }; vector<int> labels = {0, 1, 0, 1, 0, 1, 0, 1, 0, 1}; // 使用relief算法选择2个最重要的特征 vector<double> features = relief(data, labels, 2); // 输出选择出的特征 for (int i = 0; i < features.size(); ++i) { cout << features[i] << " "; } cout << endl; return 0; } ```
评论 12
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值