sinboy的菜地

一份耕耘,一份收获

用户操作
[即时聊天] [发私信] [加为好友]
张新波ID:sinboy
86623次访问,排名1111好友4人,关注者27
sinboy的文章
原创 49 篇
翻译 0 篇
转载 2 篇
评论 105 篇
sinboy的公告

喜欢中文分词技术的朋友请入http://groups.google.com/group/ictclas

最近评论
lcm62975723:谢谢你。
不知是否能给出一个完整的源代码。我的email是:
lichunming3793789@126.com
leon:您好! 我也需要JAVA版的ICTCLAS源码一份
非常感谢您
我的邮箱是 leiyongekin@126.com
再次谢谢您了。
yuzishui:呵呵,都是要源码的。
谢谢您的知识.
也希望您能坚持下去.
支持.
周梁:怎么就这两句话?赶紧加强啊。
xazl.ia.ac.cn@gmail.com
周梁:我刚开始看,这里我觉得楼主可能没有理解,
作者的原意是为了防止权重相同的节点,<判断就是和=判断区别开,如果出现=,i就不会增加,继续会在这个权重下面进行插入父节点。呵呵。
可以参考他的论文一段话:

如果两条或两条以上路径长度相等,那么他们的长度并列第i,都要列入粗分结果集,而且不影响其他路径的排列序号,最后的粗分结果集合大小大于或等于N。
文章分类
收藏
    相册
    IO
    TPTP
    友情链接
    DanceFire的BLOG
    Justin的BLOG
    Martin Fowler
    博客园设计模式
    吕震宇的BLOG
    存档
    软件项目交易
    订阅我的博客
    XML聚合  FeedSky
    订阅到鲜果
    订阅到Google
    订阅到抓虾
    订阅到BlogLines
    订阅到Yahoo
    订阅到GouGou
    订阅到飞鸽
    订阅到Rojo
    订阅到newsgator
    订阅到netvibes

    原创 ICTCLAS分词系统研究(四)--初次切分收藏

    新一篇: ICTCLAS分词系统研究(五)--N最短路径 | 旧一篇: 实现一个简单的中文时间解析器

     

       经过原子分词后,源字符串成了一个个独立的最小语素单位。下面的初次切分,就是把原子之间所有可能的组合都先找出来。算法是用两个循环来实现,第一层遍历整个原子单位,第二层是当找到一个原子时,不断把后面相邻的原子和该原子组合到一起,访问词典库看它能否构成一个有意义有词组。

    用数学方法可以做如下描述:

    有一个原子序列:A(n)(0<=n<m)(其中m为原子序列A的长度)。当I=n时,判断AnAn+1..Ap是否为一个词组,其中n<p<m.

    用伪码表示:

    for(int I=0;I<m;I++){

      String s=A[I];

       for(int j=I+1;j<m;j++){

           s+=A[j];

    if(s是一个词组){

       把s加入到初次切分的列表中;

       记录该词组的词性;

       记录该词组所在表中的坐标位置及其它信息;

    }

    else

       break;

    }

    }

    初次切分后的数据结构如下图一所示:

     

    图一

    分词用例他说的确实在理经过初次切分后的结果如下图二所示: 

     

     

                                     图二

    用二维表来表示图一中的链表结构如下图二所示:

                                         图三

    从上图三可以看出,在二维表中,初次切分后的词组,第一次字相同的在同一行,最后一个字相同的在同一列,原来的原子在对称轴上.

    对上述过程进行处理的参考源代码如下:

    bool CSegment::BiSegment(char *sSentence, double dSmoothingPara, CDictionary &dictCore, CDictionary &dictBinary, unsigned int nResultCount)
    {

     ......

     //在此处完成上图一的处理结果,生成一个链表结构

     m_graphSeg.GenerateWordNet(sSentence,dictCore,true);//Generate words array

     ......

    在生成图二所示的表结构之后,进一步生成二叉图表.

    ....

    //Generate the biword link net

    BiGraphGenerate(m_graphSeg.m_segGraph,aBiwordsNet,dSmoothingPara,dictBinary,dictCore);

    ....

    对该函数进行深入分析:

    bool CSegment::BiGraphGenerate(CDynamicArray &aWord, CDynamicArray &aBinaryWordNet,double dSmoothingPara,CDictionary &DictBinary,CDictionary &DictCore)
    {
     ......

     //获取链表的长度
     m_nWordCount=aWord.GetTail(&pTail);//Get tail element and return the words count
     if(m_npWordPosMapTable)
     {//free buffer
      delete [] m_npWordPosMapTable;
      m_npWordPosMapTable=0;
     }

     //分配一个数组,存贮图二中每个结点的词的位置,如下图四所示
     if(m_nWordCount>0)//Word count is greater than 0
      m_npWordPosMapTable=new int[m_nWordCount];//Record the  position of possible words
      

    //把指针指向当前链表的开头,并计算每个词的位置,然后把它放到数组中

     pCur=aWord.GetHead();
     while(pCur!=NULL)//Set the position map of words
     {
      m_npWordPosMapTable[nWordIndex++]=pCur->row*MAX_SENTENCE_LEN+pCur->col;
      pCur=pCur->next;
     }

     //遍历所有的结点,并计算相临两个词之间的平滑值

     pCur=aWord.GetHead();
     while(pCur!=NULL)//
     {
      if(pCur->nPOS>=0)//It's not an unknown words
       dCurFreqency=pCur->value;
      else//Unknown words
       dCurFreqency=DictCore.GetFrequency(pCur->sWord,2);

      //取得和当前结点列值(col)相同的下个结点
      aWord.GetElement(pCur->col,-1,pCur,&pNextWords);
      while(pNextWords&&pNextWords->row==pCur->col)//Next words
      { 
       //前后两个词用@分隔符连接起来

       strcpy(sTwoWords,pCur->sWord);
       strcat(sTwoWords,WORD_SEGMENTER);
       strcat(sTwoWords,pNextWords->sWord);

       //计算两个连接词的边长
       nTwoWordsFreq=DictBinary.GetFrequency(sTwoWords,3);
       //Two linked Words frequency
       dTemp=(double)1/MAX_FREQUENCE;
       //计算平滑值
       dValue=-log(dSmoothingPara*(1+dCurFreqency)/(MAX_FREQUENCE+80000)+(1-dSmoothingPara)*((1-dTemp)*nTwoWordsFreq/(1+dCurFreqency)+dTemp));
       //-log{a*P(Ci-1)+(1-a)P(Ci|Ci-1)} Note 0<a<1
       if(pCur->nPOS<0)//Unknown words: P(Wi|Ci);while known words:1
           dValue+=pCur->value;

       //Get the position index of current word in the position map table
       nCurWordIndex=BinarySearch(pCur->row*MAX_SENTENCE_LEN+pCur->col,m_npWordPosMapTable,m_nWordCount);
       nNextWordIndex=BinarySearch(pNextWords->row*MAX_SENTENCE_LEN+pNextWords->col,m_npWordPosMapTable,m_nWordCount);

       //把当前结点在位置表中的位置和下个结点在位置表中的位置及平滑值/词性插入到二叉链表中
       aBinaryWordNet.SetElement(nCurWordIndex,nNextWordIndex,dValue,pCur->nPOS);
       pNextWords=pNextWords->next;//Get next word
      }
      pCur=pCur->next;
     }
     return true;
    }

         

          图四

    最终生成的键表结果如下图五所示:

                                                 图五

    对应的二维图表表示形式如下图六所示:

                                                                                     图六

     其中小数值代表了相临两个词之间的耦合成度,即构成更大长度词的可能性的机率,值越小说明两个词独立成词的可能性越大。

     

     


    发表于 @ 2006年04月14日 11:52:00|评论(loading...)|编辑

    新一篇: ICTCLAS分词系统研究(五)--N最短路径 | 旧一篇: 实现一个简单的中文时间解析器

    评论

    #飞天小猪 发表于2006-05-26 00:17:00  IP: 58.49.193.*
    一直关注中 偶也在做中文词性标注的毕业论文

    请问 如图五所示的nPOS值是24832是什么意思?

    偶的QQ:327813546

    急盼指点 谢谢
    #sinboy 发表于2006-05-26 17:53:00  IP: 124.90.23.*
    nPOS指的应该是词性
    #sinboy 发表于2006-05-26 18:05:00  IP: 124.90.23.*
    我现在还没有开始研究词性标记的处理部分,只是先分析分词的过程。读源代码累,搞清楚里面的原理更是困难。如果你也在研究这方面的东西,我们有时间多多交流一下。
    #飞天小猪 发表于2006-05-27 02:29:00  IP: 58.49.197.*
    请教一下: 如果按照刘群和张化平的关于N最短路径求法的论文中介绍: 他说的确实在理 切分为他/说/的/确实/在理

    然而用中科院的程序运行得到的结果为:
    他/说/的/确实/在/理

    与论文不符 请问这是怎么回事?

    盼指点
    #飞天小猪 发表于2006-05-27 02:40:00  IP: 58.49.197.*
    对于图六中的数据是怎么计算得到的呢?
    #sinboy 发表于2006-05-27 15:08:00  IP: 124.90.19.*
    从源程序运行的结果来(对照图六),他认为分成:在/理两个词比成一个词的更好,从(9,11),(10,12)这两个的值得知。按照N-最短路径的思想,应该是生成N条最短路径,然后再选一个最佳的。但在源程序里面,我分析N可能被设置成了1。图六的生成结果是在函数BiGraphGenerate()里面实现的,就是计算(我想应该是统计它们在语料库中出现的概率)相邻两个词的耦合度。

    可以MSN联系我:sinboy@126.com,工作时间不大上QQ
    #solarsoft 发表于2006-06-11 11:03:00  IP: 60.178.99.*
    欢迎加入 自然语言处理QQ群:25885352
    #catskyxmu 发表于2007-04-16 15:19:05  IP: 125.77.170.*
    搜索引擎开发者群 38707929
    发表评论  


    登录
    Csdn Blog version 3.1a
    Copyright © sinboy