加权中位数定义如下:
如果x是N个元素的排序数组,并且w是总权重W的权重数组,则加权中值是最后的x [i],使得w [i]和所有先前权重之和小于大于或等于S / 2.
在C中,可以这样表示(假设x,w和W如上所定义)
double sum = 0;
int i;
for(i = 0; i < N; ++i)
{
sum += w[i];
if(sum > W/2)
break;
}
double median = x[i-1];
编辑
所以看来我匆忙地回答了这个问题,犯了一些错误.我从R documentation发现了加权中位数的简单描述,它描述如下:
For the n elements x = c(x[1], x[2], ..., x[n]) with positive
weights w = c(w[1], w[2], ..., w[n]) such that sum(w) = S, the
weighted median is defined as the element x[k] for which initial the
total weight of all elements x[i] < x[k] is less or equal to S/2
and for which the total weight of all elements x[i] > x[k] is less
or equal to S/2.
从这个描述中,我们有一个相当直接的算法实现.如果我们从k == 0开始,那么在x [k]之前没有元素,所以元素x [i]< x [k]将小于S / 2.根据数据,元素x [i]的总重量> x [k]可以或不小于S / 2.所以我们可以向前移动数组,直到第二个和小于或等于S / 2:
#include
#include
#include
int main()
{
std::size_t const N = 5;
double x[N] = {0, 1, 2, 3, 4};
double w[N] = {.1, .2, .3, .4, .5};
double S = std::accumulate(w, w+N, 0.0); // the total weight
int k = 0;
double sum = S - w[0]; // sum is the total weight of all `x[i] > x[k]`
while(sum > S/2)
{
++k;
sum -= w[k];
}
std::cout << x[k] << std::endl;
}
注意,如果中值是最后一个元素(medianIndex == N-1),那么sum == 0,所以条件和> S / 2失败.因此,k永远不会超出界限(除非N == 0!).此外,如果有两个元素满足条件,则算法总是选择第一个.