正则表达式引擎的构建——基于编译原理DFA(龙书第三章)——5 DFA最小化

16 篇文章 0 订阅
5 篇文章 0 订阅

完整引擎代码在github上,地址为:https://github.com/sun2043430/RegularExpression_Engine.git


DFA最小化的算法原理

“DFA状态最小化算法的工作原理是将一个DFA的状态集合分划成多个组,每个组中的各个状态之间相互不可区分。然后,将每个组中的状态合并成状态最少DFA的一个状态。算法在执行过程中维护了状态集合的一个分划,分划中的每个组内的各个状态不能区分,但是来自不同组的任意两个状态是可区分的。当任意一个组不能再被分解为更小的组时,这个分划就不能再进一步精化,此时我们就得到了状态最少的DFA。”

                  ——《编译原理》例3.38

起始时,该分划包含两个组:接受状态组和非接受状态组。


实例

如图(编译原理 图3-36)

首先我们将ABCDE分划到两个组中{ABCD}和{E},{E}是接受状态组,且不可被再分割。

{ABCD}是可分割的,所以我们考虑所有可能的转换。

先看转换字符a:

A->a->B

B->a->B

C->a->B

D->a->B

所以ABCD经过a到达的集合是{B},而{B}属于{ABCD}这一个集合,所以我们说{ABCD}在输入字符为a时是不可分划的。

在来看转换字符b:

A->b->C

B->b->D

C->b->C

D->b->E

到达的集合是{CDE},其中CD属于{ABCD}分划,E属于{E}分划。

所以我们说{ABCD}在输入字符为b时是可分划的。按照输入b转换到的组,我们将{ABCD}分划为{ABC}和{D}两个组。同时将{ABCD}从组集合中删除。因为{ABCD}已经分划为{ABC}和{D}。

接下来看{ABC},先看在字符a上的转换:

A->a->B

B->a->B

C->a->B

因为全部都是到达的B,所以不可分划。

再看在字符b上的转换:

A->b->C

B->b->D

C->b->C

其中C属于{ABC}组,D属于{D}组。所以{ABC}可以分划为{AC}和{B}。

最后看{AC}组,A和C在字符a上都转换到B,在字符b上都转换到C,所以{AC}是不可分划的组。

最后得到的分组情况为:

{AC},{B},{D},{E}。

同一个组中只需要保留一个节点即可(因为同一个组的节点在转换上都是相同的),所以我们直接将C节点去除,保留A节点(因为A节点是开始状态节点)。最终得到的状态最小DFA的转换表为:


代码实现(关键代码)

BOOL CDFA::FindRelationNode(list<DFANodeRelation> &lstNodeRelation, 
                            int nIdxFrom, unsigned char ch, int &nMapToIdx)
{
    list<DFANodeRelation>::iterator it = lstNodeRelation.begin();
    for ( ; it != lstNodeRelation.end(); it++)
    {
        if (it->m_nIdxFrom == nIdxFrom && it->m_ch == ch)
        {
            nMapToIdx = it->m_nIdxTo;
            return TRUE;
        }
    }
    return FALSE;
}

int CDFA::FindIdxInListSet(int nMapToIdx, list<set<int>> &lstSet)
{
    int i = 0;
    for (list<set<int>>::iterator it = lstSet.begin(); it != lstSet.end(); it++, i++)
    {
        set<int> & setIdx = *it;
        for (set<int>::iterator itInt = setIdx.begin(); itInt != setIdx.end(); itInt++)
        {
            if (nMapToIdx == *itInt)
            {
                return i;
            }
        }
    }
    return -1;
}

BOOL CDFA::PartitionOneGroup(list<set<int>> &lstSet, set<int> &setOneGroup, 
                             list<DFANodeRelation> &lstNodeRelation, 
                             map<int, set<int>> &mapPartitionInfo)
{
    BOOL            bRet            = FALSE;
    list<DFANodeRelation>::iterator itRelation;
    set<unsigned char>              setChar;
    set<int>                        setMapToIdx;

    try
    {
        // collect each node's translation char in the set
        for (set<int>::iterator it = setOneGroup.begin(); it != setOneGroup.end(); it++)
        {
            for (itRelation = lstNodeRelation.begin(); itRelation != lstNodeRelation.end(); itRelation++)
            {
                if (itRelation->m_nIdxFrom == *it)
                {
                    setChar.insert(itRelation->m_ch);
                }
            }
        }
        // end collect

        for (set<unsigned char>::iterator it = setChar.begin(); it != setChar.end(); it++)
        {
            mapPartitionInfo.clear();
            int nMapToIdx = -1; // indicate map to a dead state, there no translation for this pair of node/char
            for (set<int>::iterator itNodeId = setOneGroup.begin(); itNodeId != setOneGroup.end(); itNodeId++)
            {
                if (FindRelationNode(lstNodeRelation, *itNodeId, *it, nMapToIdx))
                {
                    int nIdx = FindIdxInListSet(nMapToIdx, lstSet);
                    if (nIdx == -1)
                        assert(FALSE);
                    mapPartitionInfo[nIdx].insert(*itNodeId);
                }
                else
                    mapPartitionInfo[-1].insert(*itNodeId);
            }
            if (mapPartitionInfo.size() > 1)// had distinguish
            {
                break;
            }
        }
    }
    catch (...)
    {
        goto Exit0;
    }

    bRet = TRUE;
Exit0:
    return bRet;
}

BOOL CDFA::PartitionGroups(list<set<int>> &lstSet, list<DFANodeRelation> &lstNodeRelation)
{
    BOOL                        bRet   = FALSE;
    list<set<int>>::iterator    it     = lstSet.begin();
    map<int, set<int>>          mapPartitionInfo;
    //  used map to record the node can translate to which group, 
    // the int(map key) is group id.
    // the set<int> contain the node ID that can translate to the group.

    for ( ; it != lstSet.end(); )
    {
        mapPartitionInfo.clear();
        set<int> &setOneGroup = *it;
        CHECK_BOOL ( PartitionOneGroup(lstSet, setOneGroup, lstNodeRelation, mapPartitionInfo) );
        if (mapPartitionInfo.size() > 1)// means that current group can partition
        {
            map<int, set<int>>::iterator itM = mapPartitionInfo.begin();
            for ( ; itM != mapPartitionInfo.end(); itM++)
            {
                try
                {
                    lstSet.push_back(itM->second);
                }
                catch (...)
                {
                    goto Exit0;
                }
            }
            it = lstSet.erase(it);// if a group had partition, the group need delete in the list

        }
        else
             it++;
    }

    bRet = TRUE;
Exit0:
    return bRet;
}

/**
    @brief     Minimize DFA
    @param     nSetSize            node count 
    @param     lstNodeRelation     node relation table
    @param     setAcceptingIdx     set for Accepting status node's index
    @param     lstSet              for save the result
    @return    TRUE, success; otherwise means fail.
*/
BOOL CDFA::MinimizeDFA(int                     nNodeCount,
                       list<DFANodeRelation>   &lstNodeRelation,
                       set<int>                &setAcceptingIdx,
                       list<set<int>>          &lstSet
)
{
    BOOL            bRet            = FALSE;
    set<int>        setUnAccepting;

    assert(nNodeCount >= 1);
    assert(setAcceptingIdx.size() != 0);
    assert(lstNodeRelation.size() != 0);

    lstSet.clear();

    try 
    {
        lstSet.push_back(setAcceptingIdx);

        // get unAccepting set
        for (int i = 0; i < nNodeCount; i++)
        {
            if (setAcceptingIdx.find(i) == setAcceptingIdx.end())
            {
                setUnAccepting.insert(i);
            }
        }
        if (setUnAccepting.size() > 0)
        {
            lstSet.push_back(setUnAccepting);
        }
    }
    catch (...)
    {
        goto Exit0;
    }

    CHECK_BOOL ( PartitionGroups(lstSet, lstNodeRelation) );

    bRet = TRUE;
Exit0:
    
    return bRet;
}

完整引擎 代码在github上,地址为: https://github.com/sun2043430/RegularExpression_Engine.git

  • 1
    点赞
  • 4
    收藏
    觉得还不错? 一键收藏
  • 2
    评论
编译原理是学习计算机科学的一门基础课程,主要涉及语言的识别和转化,而正则表达式则是其中一个非常重要的工具。在编译原理中,正则表达式通常用于描述一些模式,比如关键字、标识符等。因此,掌握正则表达式的转换过程对于理解编译原理课程非常重要。 正则表达式的转换过程主要包括以下几个部分:正则表达式转NFA、NFA转DFADFA最小化。其中,NFA(非确定有限状态自动机)和DFA(确定有限状态自动机)都是描述正则表达式的模型。 正则表达式转NFA: 首先,正则表达式中的基本元素是字符、括号和运算符。在转换为NFA的过程中,需要设计出一些状态来描述不同的字符和运算符。 对于字符来说,我们可以为它们设计出一个状态状态的入口边是字符,出口边为空。 对于括号和运算符来说,可以为它们设计出一些连接状态。例如在括号中的字符可以通过连接状态直接连接到后面的状态,或者通过其他运算符先连接到其他的状态再连接到后面的状态。 最后,需要定义一个起始状态和一个终止状态,起始状态与第一个字符状态相连,最后一个字符状态与终止状态相连。这样,我们就得到了一张NFA图。 NFA转DFA: 将一个NFA图转换成DFA图的主要目的是为了简化图结构,以便后续对文本进行识别。 首先,需要定义DFA状态集合,每个集合都对应一个状态。因为DFA是完全确定的有限状态自动机,所以在DFA中只能有一个状态。 然后,需要将NFA图中的每个状态都映射为DFA图中的一个状态,以便对文本进行识别。当NFA图中有多个状态对应于DFA图中的同一状态时,需要将它们合并,并将它们的出口边合并成一个出口边。 DFA最小化: 最后,对DFA进行最小化处理,以便减少状态数,提高运行效率。在最小化处理时需要考虑不同状态之间的等价关系。 可以采用遍历算法,将DFA中的状态按照等价关系划分为若干个等价类,然后构造一个等价类访问表,每个表项对应一个状态集。 最小化后的DFA图是可以识别文本的,可以用于在编译器中进行文本匹配和词法分析等操作。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值