最优二叉查找树_最优二叉树查找树-CSDN博客

本文链接：https://blog.csdn.net/lvlawliet/article/details/7086106

问题描述（详见算法导论P212-P213)

对于给定关键字序列，构造一颗最优的二叉查找树T，使得在T内的一次搜索的期望代价最小

前提概念

一颗最优二叉树不一定是一颗整体高度最小的树；也不一定总把具有最大概率的关键字作为根节点
二叉查找树的子树必定包含连续范围内的关键字
当一颗树成为一个节点的子树时，它的期望代价增加值为该树中所有概率的总和

最优子结构

设包含有序关键字(ki, ..., kj)的最优二叉查找树以kr（i≤r≤j）为根节点，则其左子树(ki, ..., kr-1)和右子树(kr+1, ..., kj)也同样为最优二叉查找树

递归表达式

作如下定义

给定一个由n个互异关键字(k1, ..., kn)组成的序列K，且关键字有序（k1＜...＜kn）。对每个关键字ki，一次搜索为ki的概率是pi。某些搜索值可能不在K内，因此还有n+1个”虚拟键“d0, d1, ..., dn代表不在K内的值，且ki≤di≤ki+1，di概率为qi
e[i, j]：最优二叉查找树(ki, ..., kj)的期望代价
w[i, j]：最优二叉查找树(ki, ..., kj)的概率总和，即∑p+∑q（p:i~j q:i-1~j）
root[i, j]：记录最优二叉查找树(ki, ..., kj)的根节点的序号，用于构造问题最优解
当j=i-1时，表示只有虚拟键di-1，此时e[i, i-1] = w[i, i-1] = qi

递归表达式如下（推导过程见算法导论P214-P215）

自底向上的求解

求解过程类似于矩阵链乘法问题

构造最优解

根据矩阵ROOT中记录的值进行构造

1，问题描述：给定一个有序序列K={k1<k2<k3<,……,<kn}和他们被查询的概率P={p1,p2,p3,……,pn}，要求构造一棵二叉查找树T，使得查询所有元素的总的代价最小。对于一个搜索树，当搜索的元素在树内时，表示搜索成功。当不在树内时，表示搜索失败，用一个“虚叶子节点”来标示搜索失败的情况，因此需要n+1个虚叶子节点{d0<d1<……<dn}。其中d0表示搜索元素小于k1的失败结果，dn表示搜索元素大于kn的失败情况。di（0<i<n）表示搜索节点在ki和k(i+1)之间时的失败情况。对于应di的概率序列是Q={q0,q1,……,qn}。

2，问题分析：

在二叉树中T内搜索一次的期望代价为：

E[T]=(depth(ki)+1)*pi //对每个i=1~n，搜索成功情况

+(depth(di)+1)*qi //对每个i=0~n，搜索失败情况

3，问题求解：动态规划

步骤一：寻找最优子结构。

一个最优二叉树的子树必定包含连续范围的关键字ki~kj，1<=i<=j<=n，同时也必须含有连续的虚叶子节点di-1~dj。

如果一棵最优二叉查找树T有一棵含有关键字ki~kj的子树T'，那么，T'也是一棵最优查找树，这通过剪贴思想可以证明。

现在开始构造最优子结构：在ki~kj中，选定一个r,i<=r<=j，使以kr为根，ki~k(r-1)和k(r+1)~kj为左右孩子的最优二叉树。注意r=i或者r=j的情况，表示左子树或右子树只有虚叶子节点。

步骤二：一个递归解。

定义e[i,j]为一棵包含关键字ki~kj的最优二叉树的期望代价。当j=i-1时没有真实的关键在，只有虚叶子节点d(i-1)。

于是：

当j=i-1时，e[i,i-1]=q(i-1)。

当j>=i时，需要选择合适的kr作为根节点，然后其余节点ki~K(r-1)和k(r+1)~kj构造左右孩子。这时要考虑左右孩子这些节点成为一个节点的子树后，它的搜索代价的变化：根据E[T]的计算，得知它们的期望代价增加了“子树中所有概率的总和”w。

w[i,j]=pl // 对每个l=i~j

+ql //对每个l=i-1~j

于是当j>=i时，e[i,j]=pr + (e[i,r-1]+w[i,r-1])+(e[r+1,j]+w[r+1,j]) = e[i,r-1] + e[r+1,j]+w[i,j];

步骤三：计算最优二叉树的期望代价

e[i,j]= q(i-1) //如果j=i-1

min(e[i,r-1] + e[r+1,j]+w[i,j]),如果i<=j，其中i<=r<=j

w[i,j] = q(i-1) 如果j=i-1

w[i,j]=w[i,j-1]+pj+qj 如果i<=j

#include <iostream>
#define MAXNUM 100
#define MAX 65536
using namespace std;

//p中为有序关键字k1到k5的搜索概率，k1<k2<k3<k4<k5
double p[MAXNUM] = {0.00, 0.15, 0.10, 0.05, 0.10, 0.20};
double q[MAXNUM] = {0.05, 0.10, 0.05, 0.05, 0.05, 0.10};
void optimal_bst(double e[][MAXNUM], int root[][MAXNUM], double w[][MAXNUM], int n)
{
    int i = 0, j = 0;
    //针对左或右孩子为空树情况初始化
    for(i = 1; i <= n + 1; i++)
    {
        e[i][i - 1] = q[i - 1];
        w[i][i - 1] = q[i - 1];
    }
    int l = 0;
    /*计算顺序如下：根据计算式：e[i,j] = e[i,r-1]+e[r+1,j
      首先计算节点个数为1的最优二叉树的代价e[1,1],e[2,2]……
      接着计算节点个数为1的最优二叉树的代价e[1,2],e[2,3]……
      ……
      最后计算结点个数为n的最优二叉树的代价e[1,n]，利用之前保存的较少结点最优二叉树的结果.*/
    for(l = 1; l <= n; l++)
    {
        for(i = 1; i <= n - l + 1; i++)
        {
            j = i + l - 1;
            e[i][j] = MAX;
            w[i][j] = w[i][j - 1] + p[j] + q[j];
            for(int r = i; r <= j; r++)
            {
                double t = 0;
                t = e[i][r - 1] + e[r + 1][j] + w[i][j];
                if(t < e[i][j])
                {
                    e[i][j] = t;
                    root[i][j] = t;
                }
            }
        }
    }
}

int main()
{
    double e[MAXNUM][MAXNUM];
    int root[MAXNUM][MAXNUM];
    double w[MAXNUM][MAXNUM];

    optimal_bst(e, root, w, 5);

    for(int i = 1; i <= 6; i++)
    {
        for(int j = 0; j <= 5; j++)
        {
            cout << e[i][j] << "  ";
        }
        cout << endl;
    }
}