离线处理

最新推荐文章于 2021-11-24 09:48:56 发布

lightty

最新推荐文章于 2021-11-24 09:48:56 发布

阅读量3.2k

点赞数

分类专栏： ┾图形学项目┾ 文章标签：数据库算法 lucene xml 教育 java

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/lightty/article/details/6931340

版权

┾图形学项目┾ 专栏收录该内容

14 篇文章 0 订阅

订阅专栏

大牛就是大牛，很容易就想出一些可行的解决方法，虽然这些方法并不复杂，但是很有指导意义。

我们在比较时，上传一个新图片，source，然后，与数据库里的target来进行比较。

也就是说，这个比较与数据库里target的数目有关，很有关系。在线搜索的时间。

虽然，可以对target进行预处理，如将其先离线转为xml文件，提取了相关的特征值。

但，仍然需要与每个xml对比，这样子，搜索的时间还是很长。

我们之前的一个想法是，单纯地提高这个比较获得相似度的算法，进而减少检索时间。

但是，大牛就提出了一个不同的想法，我们将这个比较相似读的算法，也转为离线。

怎么转呢？

一个，首先，对数据库的target进行分类。如先选取20个具有代表性的图，然后将所有target与这些代表比较，离线算出它们的相似度，将他们分为20组。

这样子，以后我们对新上传的source，只需也将其归类到某一个组里，搜索的量级变成了1/20，这是很很可观的。

事实上，可以进行进一步的子类的划分，这就是索引的思想。

这里需要对图的划分，怎么分类，怎么建索引具有较深理解和专业知识。可以进一步看看是怎么建立索引的。

另一个，我们一样离线处理相似度的求解，也是首先选取如5个具有代表性的图，拿这5个作为量度的标准。

然后，对数据库里的文件，分别与这5个标准图进行比较，则可以得出5个值，拿这5个值组成的向量代表这个图。

这样子，在接下来的比较中，我们就用向量的比较，来代表相似度的比较。

向量的比较就一个数学公式，而相似读比较是一个搜索算法。节省居多时间。

选取标准，离线处理，转成向量的比较。

再者，还是可以继续提高的，我们对于这样的向量，也采取规格化处理的方式，如采用lucene，重载它的比较函数为向量比较形式。

进一步利用已有的工具，这也是软工教育的思想。

可能我太孤陋寡闻了吧。。。

觉得好牛啊。。

另，对于我自己的那部分，就单纯的图相似度比较算法，他也提出了，一幅图与文章相关联，图具有的信息量较少，可以搜索它相关的文章，比较文章有关段落的相似度，来获得。

总算感觉到，能有一些起码我觉得牛叉的思想了。sigh～为昨天苦逼写了一天java代码而哭叹下

惊叹一下，这些这么raw的想法，放上去，不会被人抄袭吧。。因为，后来听说，这些方法，其实很多文章都有说。。的确好孤陋寡闻。。

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
2
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

lightty CSDN认证博客专家 CSDN认证企业博客

码龄15年

147: 原创

18万+: 周排名

162万+: 总排名

31万+: 访问

: 等级

4643: 积分

59: 粉丝

35: 获赞

21: 评论

86: 收藏

私信

关注

热门文章

分类专栏

最新评论

FastUnit超简单摘抄
luyo.dayo: 博主有fastunit的源码吗，用反编译看人都看麻了
贝叶斯
Richardis: 请问编程怎么实现
simrank
ZFSDKD: 楼主，请问，该文最后一个图中实例（b），计算机和电视机的相似度应大于收音机和电视机的相似度，因前者两条边的权重大。但根据simrank++计算公式，两对顶点都有共同的邻居顶点“天猫”，其spread值由方差决定，而方差都是0；归一化的权重也相同，那么，两对顶点相似度就应相同了。请问我的理解中哪里有错误？这样与方差相同的情况下权重大的顶点对相似度高这一原则就不符合了。
simrank
ZFSDKD 回复 LEARNER_CJ: 你好，看了你在http://blog.csdn.net/lightty/article/details/49491751 上的回复，想请教个问题。该文最后一个图中实例（b），计算机和电视机的相似度应大于收音机和电视机的相似度，因前者两条边的权重大。但根据simrank++计算公式，两对顶点都有共同的邻居顶点“天猫”，其spread值由方差决定，而方差都是0；归一化的权重也相同，那么，两对顶点相似度就应相同了。请问我的理解中哪里有错误？这样与方差相同的情况下权重大的顶点对相似度高这一原则就不符合了。
解决哈希（HASH）冲突的主要方法
大数据私房菜回复 chaikau: 是的

大家在看

最新文章

目录

评论 2

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。