离线处理

大牛就是大牛,很容易就想出一些可行的解决方法,虽然这些方法并不复杂,但是很有指导意义。

我们在比较时,上传一个新图片,source,然后,与数据库里的target来进行比较。

也就是说,这个比较与数据库里target的数目有关,很有关系。在线搜索的时间。

虽然,可以对target进行预处理,如将其先离线转为xml文件,提取了相关的特征值。

但,仍然需要与每个xml对比,这样子,搜索的时间还是很长。

我们之前的一个想法是,单纯地提高这个比较获得相似度的算法,进而减少检索时间。

但是,大牛就提出了一个不同的想法,我们将这个比较相似读的算法,也转为离线。

怎么转呢?

一个,首先,对数据库的target进行分类。如先选取20个具有代表性的图,然后将所有target与这些代表比较,离线算出它们的相似度,将他们分为20组。

这样子,以后我们对新上传的source,只需也将其归类到某一个组里,搜索的量级变成了1/20,这是很很可观的。

事实上,可以进行进一步的子类的划分,这就是索引的思想。

这里需要对图的划分,怎么分类,怎么建索引具有较深理解和专业知识。可以进一步看看是怎么建立索引的。

另一个,我们一样离线处理相似度的求解,也是首先选取如5个具有代表性的图,拿这5个作为量度的标准。

然后,对数据库里的文件,分别与这5个标准图进行比较,则可以得出5个值,拿这5个值组成的向量代表这个图。

这样子,在接下来的比较中,我们就用向量的比较,来代表相似度的比较。

向量的比较就一个数学公式,而相似读比较是一个搜索算法。节省居多时间。

选取标准,离线处理,转成向量的比较。

再者,还是可以继续提高的,我们对于这样的向量,也采取规格化处理的方式,如采用lucene,重载它的比较函数为向量比较形式。

进一步利用已有的工具,这也是软工教育的思想。

可能我太孤陋寡闻了吧。。。

觉得好牛啊。。



另,对于我自己的那部分,就单纯的图相似度比较算法,他也提出了,一幅图与文章相关联,图具有的信息量较少,可以搜索它相关的文章,比较文章有关段落的相似度,来获得。


总算感觉到,能有一些起码我觉得牛叉的思想了。sigh~为昨天苦逼写了一天java代码而哭叹下


惊叹一下,这些这么raw的想法,放上去,不会被人抄袭吧。。因为,后来听说,这些方法,其实很多文章都有说。。的确好孤陋寡闻。。


  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 2
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值