特征选择算法之 ReliefF 算法

转自:https://blog.csdn.net/yoyodelphine/article/details/52153651

ReliefF算法是Relief算法的扩展, Relief算法只适用于两类样本的问题, ReliefF算法可以应用到多个样本上。

ReliefF算法步骤如下:

现有不同类别的样本若干, 对每类样本称作 Xn。

1. 从所有样本中,随机取出一个样本a。

2. 在与样本a相同分类的样本组内,取出k个最近邻样本。

3. 在所有其他与样本a不同分类的样本组内, 也分别取出k个最近邻样本。

4. 计算每个特征的权重。

对于每个特征的权重有:

其中, p(C) 为该类别的比例。 p(Class(R)) 为随机选取的某样本的类别的比例。

可以看到,权重意义在于, 减去相同分类的该特征差值, 加上不同分类的该特征的差值。(若该特征与分类有关,则相同分类的该特征的值应该相似, 而不同分类的值应该不相似)

最后可以根据权重排序,得到合适的特征。

 

  • 5
    点赞
  • 14
    收藏
    觉得还不错? 一键收藏
  • 2
    评论
relief算法是一种常用的特征选择方法,用于从原始数据集中选择出最具代表性的特征集合。其基本思想是通过计算特征与类别之间的相关性,来评估每个特征的重要性,然后选择出权重最高的一组特征作为最终的特征集合。 relief算法的基本步骤如下: 1. 初始化权重向量w为0; 2. 随机选择一个样本x; 3. 找到与x最近的同类样本和异类样本,分别记为near_hit和near_miss; 4. 更新权重向量w,对于每一个特征i,有: - 如果x的特征i与near_hit的特征i相同,w[i] = w[i] + 1; - 如果x的特征i与near_miss的特征i相同,w[i] = w[i] - 1; 5. 重复步骤2-4,直到所有样本都被处理过; 6. 根据权重向量w的大小,选择权重最高的k个特征作为最终的特征集合。 下面是C++实现的relief算法代码: ```c++ #include <iostream> #include <vector> #include <cmath> using namespace std; // 计算两个样本之间的距离 double distance(vector<double>& x, vector<double>& y) { double d = 0.0; for (int i = 0; i < x.size(); ++i) { d += pow(x[i] - y[i], 2); } return sqrt(d); } // 计算relief算法中的权重向量 vector<double> relief(vector<vector<double>>& data, vector<int>& labels, int k) { // 初始化权重向量w为0 vector<double> w(data[0].size(), 0.0); // 遍历每一个样本 for (int i = 0; i < data.size(); ++i) { vector<double>& x = data[i]; int label = labels[i]; // 找到与x最近的k个样本 vector<pair<double, int>> distances; for (int j = 0; j < data.size(); ++j) { if (i == j) continue; double d = distance(x, data[j]); distances.push_back(make_pair(d, j)); } sort(distances.begin(), distances.end()); // 找到与x最近的同类样本和异类样本 int near_hit = -1, near_miss = -1; for (int j = 0; j < distances.size(); ++j) { int idx = distances[j].second; if (labels[idx] == label) { near_hit = idx; break; } } for (int j = distances.size() - 1; j >= 0; --j) { int idx = distances[j].second; if (labels[idx] != label) { near_miss = idx; break; } } // 更新权重向量w if (near_hit != -1) { for (int j = 0; j < x.size(); ++j) { if (x[j] == data[near_hit][j]) { w[j] += 1.0; } } } if (near_miss != -1) { for (int j = 0; j < x.size(); ++j) { if (x[j] == data[near_miss][j]) { w[j] -= 1.0; } } } } // 根据权重向量w的大小,选择权重最高的k个特征作为最终的特征集合 vector<pair<double, int>> sorted_w; for (int i = 0; i < w.size(); ++i) { sorted_w.push_back(make_pair(w[i], i)); } sort(sorted_w.begin(), sorted_w.end(), greater<pair<double, int>>()); vector<double> result(k, 0.0); for (int i = 0; i < k; ++i) { result[i] = sorted_w[i].second; } return result; } int main() { // 测试数据集 vector<vector<double>> data = { {1.1, 2.2, 3.3}, {2.2, 3.3, 4.4}, {3.3, 4.4, 5.5}, {4.4, 5.5, 6.6}, {5.5, 6.6, 7.7}, {6.6, 7.7, 8.8}, {7.7, 8.8, 9.9}, {8.8, 9.9, 10.0}, {9.9, 10.0, 11.1}, {10.0, 11.1, 12.2} }; vector<int> labels = {0, 1, 0, 1, 0, 1, 0, 1, 0, 1}; // 使用relief算法选择2个最重要的特征 vector<double> features = relief(data, labels, 2); // 输出选择出的特征 for (int i = 0; i < features.size(); ++i) { cout << features[i] << " "; } cout << endl; return 0; } ```

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值