用户操作
[留言]  [发消息]  [加为好友] 
订阅我的博客
XML聚合    FeedSky
订阅到鲜果
订阅到Google
订阅到抓虾
accesine960的公告
<div> <h3><a target="_blank" href="http://www.domolo.com">天天多么乐</a></h3> <a href="http://accesine.blog.techweb.com.cn/">田春峰的IT网志</a> <hr /> <a target="_blank" href="http://www.domolo.com" > <img src="http://p.blog.csdn.net/images/p_blog_csdn_net/accesine960/16853/o_tcf-at-cofco.JPG" width=120 height=150 border="0" alt="田春峰" /></a> </p> <!-- <a target="_blank" href="http://www.domolo.net/readme">互联网广告识别技术</a> <br /> <a target="_blank" href="http://snshelper.appspot.com/">开心网 加好友 外挂</a> <br /> <a target="_blank" href="http://data.domolo.com/snsbrowser">校内网 加好友 外挂</a> <br /> <a target="_blank" href="http://www.mmfans.net">碎戏明星班</a> <br /> <!-- <a href="http://u.domolo.com/readme">Discuz On Rails</a> --> <br /> <a href="http://seo.domolo.com/" alt="seo 客户端工具">seo 客户端工具下载</a> <br /> <a target = "_blank" href="http://seo.domolo.com/alexa"> Alexa Top 100 索引量研究报告 </a> <br /> --> </p> <object width="178" classid="clsid:D27CDB6E-AE6D-11cf-96B8-444553540000"><param name="movie" value="http://www.hada.cc/res/davinci.swf?bid=93"></param><param name="wmode" value="transparent"></param><embed width="178" src="http://www.hada.cc/res/davinci.swf?bid=93" type="application/x-shockwave-flash" wmode="transparent"></embed></object> <!-- csdn ad --> <div> <script type="text/javascript"><!-- google_ad_client = "pub-8976573831271056"; google_ad_width = 160; google_ad_height = 600; google_ad_format = "160x600_as"; google_ad_type = "text"; //2007-05-12: csdn-donews-blog-160-600 google_ad_channel = "4419634545"; google_color_border = "FFFFFF"; google_color_bg = "FFFFCC"; google_color_link = "2D8930"; google_color_text = "FFFFFF"; google_color_url = "FFFFFF"; //--> </script> <script type="text/javascript" src="http://pagead2.googlesyndication.com/pagead/show_ads.js"> </script> </div> <!-- csdn ad --> <p> <script type="text/javascript" src="http://pub.mybloglog.com/comm2.php?mblID=2005112020373600&amp;c_width=180&amp;c_sn_opt=y&amp;c_rows=5&amp;c_img_size=f&amp;c_heading_text=Recent+Readers&amp;c_color_heading_bg=005A94&amp;c_color_heading=ffffff&amp;c_color_link_bg=E3E3E3&amp;c_color_link=005A94&amp;c_color_bottom_bg=005A94"></script> </p> <div align="left"> <iframe scrolling="yes" frameborder="0" marginheight="0" marginwidth="0" width="175" height="250" src="http://u.domolo.com/lucene_mail_list_rediscuss/list" ></iframe> </div> <p /> <a href="http://www.rapleaf.com/profile/view/awgquJWC"><img alt="accesine's Rapleaf Score" border="0" src="http://www.rapleaf.com/image/awgquJWC.jpg" /></a> <p>关于我的信息链接<br> <script type="text/javascript"><!-- google_ad_client = "pub-8976573831271056"; google_ad_width = 125; google_ad_height = 125; google_ad_format = "125x125_as_rimg"; google_cpa_choice = "CAAQ4aSdzgEaCByiq1J203ivKM_M93M"; //--></script> <script type="text/javascript" src="http://pagead2.googlesyndication.com/pagead/show_ads.js"> </script> <br> <a target="_blank" href="http://www.donews.net/accesine">Donews Blog</a> </p> </p> <a href="http://www.bloglines.com/sub/http://blog.csdn.net/accesine960"> <img src="http://www.bloglines.com/images/sub_modern3.gif" border="0" alt="Subscribe with Bloglines" /> </a> </p> <img src="http://blog.csdn.net/images/blog_csdn_net/accesine960/16853/o_tianchunfeng.jpg" > </p> </div> </p> <!-- Site Meter XHTML Strict 1.0 --> <script type="text/javascript">var site="s11accesine"</script> <script type="text/javascript" src="http://s11.sitemeter.com/js/counter.js?site=s11accesine"> </script> <noscript><div> <a href="http://s11.sitemeter.com/stats.asp?site=s11accesine"> <img src="http://s11.sitemeter.com/meter.asp?site=s11accesine" alt="Site Meter" /></a> </div></noscript> <!-- Copyright (c)2005 Site Meter --> </p> <a href="http://dushucun.googlepages.com/">洪洞县杜戍村</a>
文章分类
.net
C++
os
sp
工作流
开发工具
名人连接
数据库相关
搜索引擎
网络开发
我的好朋友
移动开发
组件
存档

原创  一种快速的未登陆词识别方法(原理和实现) 收藏

一种快速的未登陆词识别方法(原理和实现)
   
    最近网络上关于分词的算法已经很多了,在实际应用中每个人根据对分词的不同理解写了不同的中文分词算法,可谓百花齐放.
    但现在似乎还没有针对未登陆词的识别算法,有鉴于此,我特地写了一个,抛砖引玉.

    算法的假设:
    1. 未登陆词是由单字组成的;
    2. 如果一个字同时属于2个未登陆词,那么只选择第一被识别的词;

    测试文章:
    最近电视剧大长今很火,我就选取了介绍大长今的文章,
    地址:http://www.360doc.com/showWeb/0/0/18183.aspx
    识别结果如下:
        PDH : initialize phrase dictionary
        QuerySpliter reInitialize dictionary.
        长今,职场,闵政浩,韩剧,郑云白,连生,主簿,冷庙高香,义字,医女,张德,剩者,济州,选拨,文秘

    算法原理:
    首先找出已经分词后的单字,然后查看单字的下一个是否还是单字,如果是,判断这种情况出现的次数,如果超过预订的阀值,那么就确认这是一个新词.
    下面是一个算法的计算过程展示:
    PDH : initialize phrase dictionary
    QuerySpliter reInitialize dictionary.
    >>>8,9;9,10
    长今
    >>>237,238;238,239
    职场
    >>>595,596;596,597;597,598
    闵政浩
    >>>189,190;190,191
    韩剧
    >>>1111,1112;1112,1113;1113,1114
    郑云白
    >>>599,600;600,601
    连生
    >>>610,611;611,612
    主簿
    >>>975,976;976,977;977,978;978,979
    冷庙高香
    >>>1233,1234;1234,1235
    义字
    >>>559,560;560,561
    医女
    >>>561,562;562,563
    张德
    >>>3114,3115;3115,3116
    剩者
    >>>534,535;535,536
    济州
    >>>580,581;581,582
    选拨
    >>>2071,2072;2072,2073
    文秘
    本算法是在:小叮咚分词的基础上进行的.
    欢迎大家一起交流,改进这个算法.
       
    相关连接:
             
基于最长词匹配算法变形的分词系统( 文舫工作室贡献 )
                       小叮咚中文分词在处理大量数据的时候碰到了内存泄漏的问题
                       Lucene使用者沙龙   
             
       原帖地址



发表于 @ 2005年10月12日 15:58:00 | 评论( loading... ) | 编辑| 举报| 收藏

旧一篇:和王通商榷:电子商务的核心问题是什么? | 新一篇:AJAX如何处理书签和翻页按扭(上)

  • 发表评论
  • 评论内容:
  •  
Copyright © accesine960
Powered by CSDN Blog