搜索引擎：平移算法简介

最新推荐文章于 2021-12-03 13:42:26 发布

dzeng81

最新推荐文章于 2021-12-03 13:42:26 发布

阅读量956

点赞数

分类专栏： Java Base 文章标签：算法搜索引擎通讯 blog

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/dazern/article/details/383300

版权

Java Base 专栏收录该内容

76 篇文章 1 订阅

订阅专栏

在开发新闻搜索引擎的时候，出现一个问题就是有很多的新闻属于转载的形式，要判断新闻是否转载，经过实验，我发现可以用“平移”算法来实现。

"平移算法"非常简单易用，就是比较两个文章／字串中最高的重叠率和平均重叠的长度。
例如我们有两个文章的标题：

"报告显示中国ip视频通信应用早于西方国家_通讯与电讯_科技时代_新浪网"
http://tech.sina.com.cn/t/2004-12-01/1231468255.shtml

"权威机构调查显示中国ip视频通信应用早于西方_搜狐it"
http://it.sohu.com/20041201/n223268718.shtml

以上两个新闻是转载同一来源，但是略做了更动，根据平移算法，我们固定一个字串，然后将另外一个字串从末尾对应第一字串的开头进行平移，然后计算两个字串之间的交集。如果字符完全一样则为1，不一样为0，将所有的值加起来。

"________报告显示中国ip视频通信应用早于西方国家_通讯与电讯_科技时代_新浪网"
"权威机构调查显示中国ip视频通信应用早于西方_搜狐it"
0 0 0 0 0 0 0 0 1 1 1 1 1 1 1 1 1 1 1 1 1 1 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0"

可以看到当B和A平移到一定的位置的时候能够找到最大的重叠度。上例是14个连续字符。

相识性：AB重叠部分／（A的长度＋ B的长度 - AB重叠的长度）
14／ (33+25-14) = 31%

一般超过20%即可判断为相同主题或者是转载同一来源。

平移算法的功能：

1] 实现对高度相识性的文章进行识别。转载，来源的识别。

2] 可以发现主题，发现核心内容。

例如实现匹配的部分，上例是

A&B = “中国ip视频通信应用早于西方”

是完全匹配的部分，就是相识文章的最核心的内容。

作者Blog： http://blog.csdn.net/fasttalk/

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

dzeng81 CSDN认证博客专家 CSDN认证企业博客

码龄22年

436: 原创

13万+: 周排名

35万+: 总排名

95万+: 访问

: 等级

1万+: 积分

118: 粉丝

18: 获赞

118: 评论

54: 收藏

私信

关注

热门文章

分类专栏

最新评论

Borland加强对开放源代码平台Eclipse支持
Carnage666: 说得好！
可以做技术，切不可沉湎于技术。千万不可一门心思钻研技术！
马朝阳2024: 从大环境说，在中国，在不改变自己的出身和阶级的情况下，其实干哪行都一样。但有一点不一样，从事的职业不同，看的事物也会变得不一样，我呢，觉得学习技术可以是功利的也可以是兴趣的，关键是你先入瓮，有时间再往有兴趣的方向走。如果我对技术有兴趣的原因是，生活里可以用到，优化我的生活，而不是制造一个程序管理我的生活
用oracle的trigger生成主键的时候和hibernate冲突的讨论
遥不可及的星: 修改数据库的方言之后，运行会报错，ORA-08002: 序列 SEQ.CURRVAL 尚未在此会话中定义，必须序列.nextval之后才可以使用.currval，除了修改方言之外，不删触发器，还有别的解决方法吗？
java载入背景音乐
名大侠子君: 总算找到了，谢谢楼主分享！
杭州, 一个商业城市状元秀
华少ss: 咖啡总有点苦涩，而苦涩之中却韵育着甜美!人生就象一杯咖啡，在苦涩的途中亦有无限的甜蜜等待着去品尝；人生的意义不在于会得到什么，而在于人生旅途中将体验到什么！好好享受人生吧，从零度开始，从Java开始！试着品尝咖啡，品尝人生！

大家在看

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。