数学之美之信息指纹

读到信息指纹这一章,讲到每个网页链接都生成一个128位的随机数,这样可以方便的存储并且保证不会出现重复的链接。

之后又讲到判定两个集合是否相同,就在这个地方稍微思考了一下,不过对于指纹的原理还不是很清楚的。但是假如要我判断两个字符串是否相同,我会怎么做呢?

  对于两个字符串,如果将顺序也考虑进来的话,可以先判断两个字符串是否长度相同,如果相同接着顺序一个一个作比较,是最简单的方法,复杂度也只有O(n)而已。

假如顺序不考虑,既是比较两个字符的集合,与顺序无关,则可以先将要排序的字符排序,在按照顺序字符串来处理,则复杂度为O(nlgn),思路也并不是很困难。

但是如果需要一个复杂度为O(n)的算法,则不是那么好想了,根据信息指纹的介绍,我想到将所有字符的ACCiI码加起来,如果两个字符集合相同,则加起来的和肯定一样,这样只要将每个字符串遍历一边就可以了,复杂度为o(n),不过这种方法的通用性肯定非常不好,很多情况下得出的结果是错误的,例如对于“abc”和"bbb"两个字符串得出的和是一样的,不过我认为,如果数据越多,这个方法的正确度就越高,虽然我没有具体的数学公式去检验。因为作者在介绍这部分时如果我没理解错的话,用的就是类似这种方法,只不过他的信息指纹是很长的数字,而不像ACCII码只有128个。

  之后作者讲到信息指纹技术在反盗版和判断文章相关性等方面的应用,通过信息指纹可以判断两段视频或者两篇文章是否相同,从而来判断原创还是盗版。在这里我想到以前又一次从百度文库里下载了一篇文档,因为觉得很好,想传到自己的文库上以便以后阅读,但是传上去却被系统告知有相同的文章在文库里,不能上传。当时我就在想,网上百度文库那么多文章,怎么查出来我的是一样的呢,当时觉得很神奇,但是我想改几个字就不一样了吧,于是我删去了几句话,果然就传上去了。现在我想,可能根据文档题目先查数据库中是否有一样题目的文档,如果找到在比较内容来判断是否有重复文档吧,这样其实并不复杂,因为相同题目的文档,可能并不多吧。

  接着作者又提出一个问题,怎样判断集合的相似度,就是不是简单的判断是否一样,而是判断两个集合的重复部分所占的比例。之前的问题我都觉得很简单,而这个问题我觉得很有挑战性,假如有人在面试中问我怎么求两个文章的相似度,我一时也回答不出来。这里我想到以前带过我《人工智能》和《科研方法导论》两门课的一位老师,她说带过两个学生做过“判断新闻的相关度”的一个课题,那两个学生是我的两个学长,非常优秀的两个人,当时听到这个课题觉得挺有挑战性的,这次读到这篇文章,突然有种醒悟的感觉,果然就是要多读书啊。

  文中提到一种相似哈希的方法来处理相似网页,对于新闻我想也是可以的吧,还论文查重时所使用的系统。要判断两篇文章的内容相关度,我想并不能解析两篇文章中心思想吧,计算机并不具备这种智能,这也是当时听到老师说的时候感觉困难的一个原因吧。要比较两篇文章肯定是要选取部分关键词来进行比较,将关键词组成一个集合,使用一定的算法来判断相似的程度,从而确定两篇文章的相似度,因为一篇文章总是可以抽象出几个关键词来作为文章的标志的。具体做法,就是给每篇文章建立一张哈希表,将关键词和出现的次数填在每个表项中。判断通过表项重复的程度占整篇文章的比例来判断文章的相似度。当然需要一定的空间,但是算法时间还不至于达到O(n2),所以是可取的,至于占用空间的问题可以采取其他措施来改善,例如二进制来表示每个项,关于这点,以后的文章还会介绍。

 还有一点很重要的就是关键字的选取,这个是决定成败的关键,当然这个不在我考虑的范畴了,需要一些自然语言处理的知识,就是自然语言处理中的语料库,是非常重要的,没有好的关键字,也就是说文章的中心思想根本没有抽象出来,就不要谈怎样比较两篇文章是否相同了。

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值