DanceFire的专栏

天地不仁,以万物为刍狗

舞焰ID:DanceFire
257729次访问,排名218好友0人,关注者1
DanceFire的文章
原创 51 篇
翻译 4 篇
转载 0 篇
评论 927 篇
DanceFire的公告
最近评论
phhwr85:非常感谢,正郁闷中!
herry0628:A gold website for wow gold and
buy wow gold sevise.
herry0628:A gold website for wow gold and
buy wow gold sevise.
herry0628:A gold website for wow gold and
buy wow gold sevise.
herry0628:A gold website for wow gold and
buy wow gold sevise.
文章分类
收藏
    相册
    Unix家族族谱图
    编程语言家族族谱
    操作系统相关图片
    插图
    麒麟操作系统相关图片
    L4 微内核实现
    Fiasco - DROPS的底层微内核 (TU Dresden)
    L4Ka::Pistachio (UKa, UNSW)
    seL4 - Secure Embedded L4 (UNSW)
    L4 微内核研究组
    L4 总部
    UKa的L4研究组
    UNSW/NICTA的L4研究组
    L4 文档
    L4 X.2 API的用户手册(UNSW)
    L4-embedded 参考手册 N1 (UNSW)
    基于 L4 的操作系统
    Darwin在L4上的移植 - Darbat (UNSW)
    DROPS - 基于L4的嵌入式实时操作系统 (TU Dresden)
    GNU Hurd在L4上的移植
    Linux在L4上的移植 - L4Linux (TU Dresden)
    Linux在L4上的移植 - Wombat (UNSW)
    Mungi - Single Address Space OS based on L4 (UNSW)
    朋友
    Dancefire's website
    ralph623的专栏(RSS)
    sinboy的菜地(RSS)
    Sunwear(RSS)
    Xinsoft :应用之美,在于药到病除(RSS)
    吕震宇(RSS)
    强强专栏(RSS)
    旁观生活的BT(RSS)
    潇寒的Blog(RSS)
    龙真先生(RSS)
    存档
    软件项目交易
    订阅我的博客
    XML聚合  FeedSky
    订阅到鲜果
    订阅到Google
    订阅到抓虾
    订阅到BlogLines
    订阅到Yahoo
    订阅到GouGou
    订阅到飞鸽
    订阅到Rojo
    订阅到newsgator
    订阅到netvibes

    原创 中科院中文分词系统ICTCLAS之NShortPath代码的详细分析收藏

    新一篇: 中科院中文分词系统ICTCLAS之CSegment的GenerateWord()详细分析 | 旧一篇: 警告:为了安全请不要随意将ASP.Net的validateRequest="false"

    这两天我开始看ICTCLAS的实现代码了,和吕震宇的感觉完全一样,代码真的是糟糕透顶,呵呵,非常同情吕震宇和Sinboy能够那么认真地把那些代码读完。有了你们辛苦、认真的分析工作,让我更容易的读懂ICTCLAS的代码了,谢谢了。阅读过程中注意到了他们分析中有些地方有点小错误。

    ICTCLAS的命名好像没有正统的学过数据结构一样,对于数据结构的命名非常富有想象力,完全没有按照数据结构上大家公认的术语命名,所以给代码的读者带来很大的迷惑性。所以我们在看名字的时候一定要抛开名字看实现,看本质,看他们到底是个啥。呵呵。

    首先就是CQueue的问题,CQueue虽然叫Queue,但是它不是FIFO的Queue。那它是什么呢?CQueue是优先级队列Priority Queue和Stack的杂交。但是没有半点FIFO的Queue的概念在里面。

    CQueue元素有一个权重eWeight,这个权重如果不为0(或者说互相之间不等),那么CQueue此时的含义是按照权重由小到大排序的优先级队列。

    如果CQueue的所有元素的eWeight都相等,(在ICTCLAS代码里就是都为0),此时CQueue就演变为FILO的Stack,栈。

    因此这个CQueue才会有Push和Pop两种插入和删除元素的命名。呵呵,挂着羊头卖的是狗肉,还是两只狗。对于C#、C++、Java来说,类库里面都有现成的优先级队列和栈的实现,而且可以用

    • List<T>
    • 重载小于号(C++)、重载CompareTo()(C#,Java) 
    • List.Sort()

    来代替优先级队列实现和并且具有和作者一样的Iterator的功能。那个CQueue完全可以省略掉。

    然后是DynamicArray。动态数组?非也。这个是用来表示稀疏图的邻接表,每一个元素表示的是图上的一条边。对于非稀疏的图往往喜欢用NxN的数组来表示N个节点的连接关系。而对于稀疏图来说,无疑会浪费大量的空间,于是往往采用记录邻接两点的边的方式来记录图。

    作者为了能够让以后调用的时候方便,对于起点和终点进行排序(或者说维护了顺序)。对起点排序,就是代码中所谓的RowFirst,对于终点进行排序就是ColumnFirst。

    那为何作者叫DynamicArray呢?其实也不难想象,首先是因为邻接表实际上就是边的一个列表,也可以看为数组。但是边的数量是在变化的,而不是最开始就可以知道的。因此这个数组是动态的。于是就叫动态数组了。。。。汗。

    对于DynamicArray,我们也完全可以用List<>.Sort()的方式来实现,对于C++来说,我们需要定义2个functor,分别是起点优先比较和终点优先比较。对于Java和C#也有类似的定义比较函数的办法。因此这个DynamicArray(),可以扔掉了。没必要用这么一个奇怪的东西。

    接下来我把NShortPath中的最主要的三个函数

    int Output(int **nResult,bool bBest,int *npCount);
    int ShortPath();
    void GetPaths(unsigned int nNode,unsigned int nIndex,int
    **nResult=0,bool bBest=false); 

    的代码和分析帖在下面,分析都写在注释里了。

    在具体开始之前,我先明确一个东西,在中科院的论文里称求解多个最优路径问题为N最短路径问题(N-Shortest Paths),如果你google你会发现没有多少有用的结果,其实不然。不知道是不是作者不了解国际上对该问题的讨论,这个问题应该称为k shortest path(即K最短路径问题)。这个问题也已经有了不错的解法,David Eppstein分别在1994年和1997年已经给出了大约复杂度为O(m + n log n + kn)的解法。而中科院论文里面的解法的复杂度还是比较高的:O(n*N*k)。(两个复杂度的字母含义不同,定义请看原论文)。所以,如果可能,再次实现ICTCLAS的算法的朋友可以考虑抛开中科院的求k shortest path的解法,而使用国际上比较流行的解法。

    BTW: 问一下,吕震宇,你有什么比较可爱点的称呼么?呵呵,我这么直呼大名在中文的习惯里似乎不太礼貌。:)

    int CNShortPath::ShortPath()
    {
        unsigned 
    int nCurNode=1,nPreNode,i,nIndex;
        ELEMENT_TYPE eWeight;
        PARRAY_CHAIN pEdgeList;

        
    //    循环从1开始,即从第二个节点开始。遍历所有节点。
        for(;nCurNode<m_nVertex;nCurNode++)
        
    {
           CQueue queWork;
           
    //    有CNShortPath调用的上下文可知,入口的m_apCost为列优先排序的CDynamicArray。
           
    //    换句话说就是:
           
    //    list<Edge> m_apCost;
           
    //    list.sort(m_apCost, less_column_first());
           
    //    下面这行代码是将该列的边的起始链表元素赋予pEdgeList,以方便遍历。
           
    //    算法上的含义是取得图上终点为nCurNode的所有边,并将第一条边放入pEdgeList进行对所有边的遍历。
                    eWeight=m_apCost->GetElement(-1,nCurNode,0,&pEdgeList);//Get all the
    edges
                    
    while(pEdgeList!=0 && pEdgeList->col==nCurNode)
                    
    {
                
    //    nPreNode是当前边的起点
               nPreNode=pEdgeList->row;
               
    //    eWeight是当前边的长度
               eWeight=pEdgeList->value;//Get the value of edges
                       
    //   对于dijkstra算法来说,我们需要知道当前节点(终点)的通过不同的前方的点到原点的距离
                       
    //   并且从中知道最短的路径,然后我们会更新当前节点的父节点和当前节点到原点的距离。
                       
    //   在这个修改后的多最短路径算法中,我们将(当前节点的父节点,当前节点通过该父节点到原点的距离)视为一个配对
                       
    //   我们保留一个为m_nValueKind大小的数组,记录这些可能的配对,而不仅仅是保留最小的。
                       
    //   下面这个循环就是将所有可能的组合放到优先级队列中,然后将来可以从优先级队列中选取前m_nValueKind。
                       
    //   这里循环范围限定到m_nValueKind主要是考虑以后所需要的不会超过这么多个值。
                       
    //   这里放入优先级队列的是前向节点和长度,相当于是路径,而不是长度的值的列表,与后面表达的意思不同。
               for(i=0;i<m_nValueKind;i++)
               
    {
                    
    //    如果起点>0,即判断起点是不是第一个节点。
                   if(nPreNode>0)//Push the weight and the pre node
    infomation
                   
    {
                        
    //    起点不是第一个节点。
                        
    //    判断起点到原点的总长度在索引值为i的时候是不是无穷大。
                                            
    //      如果无穷大了,就说明前一个点已经无法到达了,说明没有更多到前面节点的路径了
                        
    //    也不必继续向优先级队列中放入点了。
                       if(m_pWeight[nPreNode-1][i]==INFINITE_VALUE)
                           
    break;
                        
    //    将起点,索引值i,和终点到原点的总长度压入优先级队列。
                       queWork.Push(nPreNode,i,eWeight
    +m_pWeight[nPreNode-1][i]);
                   }

                   
    else
                   
    {
                        
    //    起点为第一个节点。
                        
    //    将起点,索引值i,和当前边的长度压入优先级队列
                       queWork.Push(nPreNode,i,eWeight);
                       
    break;
                   }

               }
    //end for

               
    //    换到下一条边。
               pEdgeList=pEdgeList->next;

                    }
    //end while

           
    //Now get the result queue which sort as weight.
           
    //Set the current node information
            
    //    将起点到原点的长度,对于每个索引值都初始化为无穷。
           for(i=0;i<m_nValueKind;i++)
           
    {
                m_pWeight[nCurNode
    -1][i]=INFINITE_VALUE;
           }

           
    //memset((void *),(int),sizeof(ELEMENT_TYPE)*);
           
    //init the weight
           i=0;
           
    //       进行循环,索引值小于想要的索引值时,并且优先级队列不为空。
               
    //   在这里面的i表达的是长度的值的索引,并不代表不同的路径,同一个i可能对应多个路径。
               
    //   这个循环过后,m_pWeight[nCurNode-1][] 为可能存在的前m_nValueKind个长度值。
               
    //   并且把前m_nValueKind个路径压入m_nParent对应的队列中。
               
    //
           while(i<m_nValueKind&&queWork.Pop(&nPreNode,&nIndex,&eWeight)!
    =-1)
           
    {//Set the current node weight and parent
                            
    //      从以长度为优先级的队列中,提取第一个(最短的)记录。
                            
    //      将该记录的起点给nPreNode,索引给nIndex,长度给eWeight

                
    //    如果起点到原点的长度为无穷。(这在第一次循环的时候显然是无穷)
                
    //    就将这个长度设为最短边的长度。
               if(m_pWeight[nCurNode-1][i]==INFINITE_VALUE)
                   m_pWeight[nCurNode
    -1][i]=eWeight;
               
    else if(m_pWeight[nCurNode-1][i]<eWeight)//Next queue
               {
                    
    //    否则,如果起点到原点的长度小于当前边的长度
                    
    //    递增索引值,换到下一套选择值去。如果到达了最大索引值就退出循环。
                   i++;//Go next queue and record next weight
                   
    //       既然这里有是否会大于最大索引值的判断,何必在while条件里面加那个条件呢?
                   if(i==m_nValueKind)//Get the last position
                       break;
                    
    //    将起点到原点的长度,下一个索引值(i+1),设为队列中元素的长度。
                   m_pWeight[nCurNode-1][i]=eWeight;
               }
    else{
                               
    //   如果起点到原点的长度 == 队列中的长度, 那么只向当前节点,当前索引的父节点中插入一个配对。
                               
    //

                               
    //   如果起点到原点的长度 > 队列中的长度?
                               
    //   这是不可能出现的,因为这个数值在队列中是有序的。从小到大。
                               
    //   因此这个数值的变化规律是初始位无穷大,第一次赋值为最小值,然后逐渐增大。
                       }

               
    //    将(起点,索引值)压入起点的父节点的队列中去
               m_pParent[nCurNode-1][i].Push(nPreNode,nIndex);
           }

        }
    //end for

        
    return 1;
    }


    //bBest=true: only get one best result and ignore others
    //Added in 2002-1-24
    void CNShortPath::GetPaths(unsigned int nNode,unsigned int nIndex,int
    **nResult,bool bBest)
    {
        CQueue queResult;
            
    //      当前节点为最后一个节点
            unsigned int nCurNode = nNode, nCurIndex = nIndex;
            unsigned 
    int nParentNode,nParentIndex;
            unsigned 
    int nResultIndex = 0;

            
    if(m_nResultCount >= MAX_SEGMENT_NUM)        //      Only need 10 result
            {
                    
    return;
            }

            
    //      将路径第一点设为-1。
            nResult[m_nResultCount][nResultIndex] = -1;     //      Init the result
            
    //      此时没有设置weight,此时的CQueue的成为了一个Stack。
            queResult.Push(nCurNode, nCurIndex);
        
    bool bFirstGet;
        
    while(!queResult.IsEmpty())
            
    {
                    
    //      从最后的节点循环到第一个节点
                    
    //      这个循环在第一次循环的时候,会把最优解压入结果栈
                    
    //      第二次循环会把分支解压入结果栈。
                    while(nCurNode>0)    //
                    {
                            
    //Get its parent and store them in nParentNode,nParentIndex
                            
    //      取(当前节点,当前索引)的父节点列表的第一个父节点信息。
                            if(m_pParent[nCurNode-1][nCurIndex].Pop(&nParentNode,&nParentIndex,
    0,false,true)!=-1)
                            
    {
                                    
    //      将当前节点变为父节点
                               nCurNode=nParentNode;
                               nCurIndex
    =nParentIndex;
                            }

                            
    //      如果当前节点不是第一个节点的话,就将当前节点入栈。
                            if(nCurNode>0)
                    queResult.Push(nCurNode,nCurIndex);
                    }

                    
    //      如果nCurNode == 0说明取得了合法的结果,而不是异常退出上一个循环。
                    if(nCurNode==0)
                    
    {
                            
    //Get a path and output
                            
    //      将路径第一点设为起点
                            nResult[m_nResultCount][nResultIndex++]=nCurNode;//Get the first
    node
                            
    //      第一次从queResult取数据的时候,得将这个标志位设为true。
                            
    //      这样才可以在bModify = false的时候,取得堆栈的头。
                            
    //      其目的就是要从头遍历堆栈,但是不修改堆栈内部数据,以方便以后遍历用。(循环不就行了?)
                            bFirstGet=true;
                            nParentNode
    =nCurNode;
                            
    //      将堆栈遍历,保存结果路径。
                            while(queResult.Pop(&nCurNode,&nCurIndex,0,false,bFirstGet)!=-1)
                            
    {
                                    nResult[m_nResultCount][nResultIndex
    ++]=nCurNode;
                                    bFirstGet
    =false;
                                    nParentNode
    =nCurNode;
                            }

                            
    //      设置结果位为-1
                            nResult[m_nResultCount][nResultIndex]=-1;//Set the end
                            m_nResultCount+=1;//The number of result add by 1
                            if(m_nResultCount>=MAX_SEGMENT_NUM)//Only need 10 result
                                    return ;
                            nResultIndex
    =0;
                            nResult[m_nResultCount][nResultIndex]
    =-1;//Init the result

                            
    if(bBest)//Return the best result, ignore others
                                    return ;
                    }


                    queResult.Pop(
    &nCurNode,&nCurIndex,0,false,true);//Read the top node
                    
    //      寻找存在多个父节点的节点。
            while(queResult.IsEmpty()==false&&(m_pParent[nCurNode-1]
    [nCurIndex].IsSingle()
    ||m_pParent[nCurNode-1]
    [nCurIndex].IsEmpty(
    true)))
                    
    {
                   queResult.Pop(
    &nCurNode,&nCurIndex,0);//Get rid of it
                       queResult.Pop(&nCurNode,&nCurIndex,0,false,true);//Read the top
    node
                    }

            
    if(queResult.IsEmpty()==false&&m_pParent[nCurNode-1]
    [nCurIndex].IsEmpty(
    true)==false)
                    
    {
                            
    //      如果定位到了节点。将下一种选择入栈。
                            m_pParent[nCurNode-1][nCurIndex].Pop(&nParentNode,&nParentIndex,
    0,false,false);
                            nCurNode
    =nParentNode;
                            nCurIndex
    =nParentIndex;
                            
    if(nCurNode>0)
                               queResult.Push(nCurNode,nCurIndex);
                    }

            }

    }


    int CNShortPath::Output(int **nResult,bool bBest,int *npCount)
    {
            
    //      sResult is a string array
            unsigned int i;
            m_nResultCount
    =0;//The
            
    //      如果节点数只有2个,就没必要那么复杂运算了。直接返回唯一的路径。
            if(m_nVertex<2)
            
    {
                    nResult[
    0][0]=0;
                    nResult[
    0][1]=1;
                    
    *npCount=1;
                    
    return 1;
            }

            
    //              对最后一个节点,遍历每一个可能的长度值,将计算所得的路径放入nResult。
            for(i=0;i<m_nValueKind&&m_pWeight[m_nVertex-2][i]<INFINITE_VALUE;i++)
            
    {
              GetPaths(m_nVertex
    -1,i,nResult,bBest);