Java之路

做一名优秀的软件架构师是我不变的追求!

用户操作
[即时聊天] [发私信] [加为好友]
王绍峰ID:fasttalk
158418次访问,排名486好友0人,关注者2
fasttalk的文章
原创 70 篇
翻译 2 篇
转载 1 篇
评论 176 篇
fasttalk的公告

本blog已经转移到asktalk.blogjava.net ,本处内容停止更新



留言本<请你留言>

最近评论
sap99:www.sap99.com/,SAP99资料多多

SAP免费资料下载
http://www.sap99.com

有很多的学习资料,推荐一下,
airxsj:新世纪机票网--最专业的[url=http://www.airxsj.com]国际机票[/url]代理商,[url=http://www.airxsj.com]国际机票[/url]特价网上查询:最新,最全,最准确!全国最低折扣!民航直属[url=http://www.airxsj.com/]国际机票[/url],一级代理
airxsj:新世纪机票网--最专业的[url=http://www.airxsj.com/]国际机票[/url]代理商,[url=http://www.airxsj.com/]国际机票[/url]特价网上查询:最新,最全,最准确!全国最低折扣!民航直属[url=http://www.airxsj.com/]国际机票[/url],一级代理
supercrsky:应该是PigMeat吧
njurain:实际就是LCS算法

很Naive的一个算法
文章分类
收藏
    相册
    Soft image
    Web image
    Game Dev
    GameRes游戏开发资源网
    Java手机网
    J2EE
    Java community
    BEA dev2dev社区
    Csdn社区
    IBM Java开发者社区
    SUN Java开发者社区
    Java web
    javaresearch.org
    matrix.org.cn
    Links
    BlogJava.net
    IT公司速查手册
    Sky's the limit
    分享Java快乐
    Official sites
    Subversion
    Opensource
    java-source.net
    sf.net
    公开原始码报
    世界伟人blog
    李开复学生网
    存档
    软件项目交易
    订阅我的博客
    XML聚合  FeedSky
    订阅到鲜果
    订阅到Google
    订阅到抓虾
    订阅到BlogLines
    订阅到Yahoo
    订阅到GouGou
    订阅到飞鸽
    订阅到Rojo
    订阅到newsgator
    订阅到netvibes

    原创 搜索引擎:平移算法简介收藏

    新一篇: 搜索引擎:数字信息搜索,理论著作 | 旧一篇: Google 招聘的21道题目 (GLAT)

    在开发新闻搜索引擎的时候,出现一个问题就是有很多的新闻属于转载的形式,要判断新闻是否转载,经过实验,我发现可以用“平移”算法来实现。

    "平移算法"非常简单易用,就是比较两个文章/字串中最高的重叠率和平均重叠的长度。
    例如我们有两个文章的标题:

    "报告显示中国ip视频通信应用早于西方国家_通讯与电讯_科技时代_新浪网"
    http://tech.sina.com.cn/t/2004-12-01/1231468255.shtml

    "权威机构调查显示中国ip视频通信应用早于西方_搜狐it"
    http://it.sohu.com/20041201/n223268718.shtml

    以上两个新闻是转载同一来源,但是略做了更动,根据平移算法,我们固定一个字串,然后将另外一个字串从末尾对应第一字串的开头进行平移,然后计算两个字串之间的交集。如果字符完全一样则为1,不一样为0,将所有的值加起来。

    "________报告显示中国ip视频通信应用早于西方国家_通讯与电讯_科技时代_新浪网"
    "权威机构调查显示中国ip视频通信应用早于西方_搜狐it"
    0 0 0 0 0 0 0 0 1 1 1 1 1 1 1 1 1 1 1 1 1 1 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0"

    可以看到当B和A平移到一定的位置的时候能够找到最大的重叠度。上例是14个连续字符。

    相识性:AB重叠部分/(A的长度 + B的长度 - AB重叠的长度)
    14/ (33+25-14) = 31%

    一般超过20%即可判断为相同主题或者是转载同一来源。

    平移算法的功能:

    1] 实现对高度相识性的文章进行识别。转载,来源的识别。

    2] 可以发现主题,发现核心内容。

    例如实现匹配的部分,上例是

    A&B = “中国ip视频通信应用早于西方”

    是完全匹配的部分,就是相识文章的最核心的内容。

    发表于 @ 2004年12月27日 19:50:00|评论(loading...)|编辑

    新一篇: 搜索引擎:数字信息搜索,理论著作 | 旧一篇: Google 招聘的21道题目 (GLAT)

    评论

    #njurain 发表于2008-04-22 20:14:14  IP: 121.0.31.*
    实际就是LCS算法

    很Naive的一个算法
    发表评论  


    当前用户设置只有注册用户才能发表评论。如果你没有登录,请点击登录
    Csdn Blog version 3.1a
    Copyright © fasttalk