Semantic Hashing

    前段时间搞了下semantic hashing,曾为找它的源码愁白了头,虽然它的主体是个很显然的RBM栈,但后面fine-tune的过程却让我不知所措。后来在作者的主页上下到AutoEncoder的源码,刚开始不知道这是个什么东西,后来才发现semantic hashing论文里提到的思想就是基于这个的,并且作者一系列的论文都是基于这个的(其实是基于Deep Learning的)。后来用了这个代码的主体部分算是完成了semantic hashing的实验。其中backprop.m(即论文中的fine-tuning步骤)和rbm.m的主体没有改。
    用这个只是做下对比实验了,semantic hashing虽然解决稍高维度和稍大数据量的文本检索在效果上比spectral hashing要好了不止一个数量级(主要是spectral hashing处理这种问题实在太差了),但内存占用量仍然是个瓶颈,并且速度特别慢,尤其是迭代进行fine-tune的过程,可以说是实在太慢了。
    由于内存占用量的问题,利用矩阵思想进行降维的方法基本是不适合解决文本检索问题的,尤其是短文本,因为文本检索一般都具有极高维度(至少上万维,多至几百万维),虽然有方法来降低内存占用量,但是要以时间为代价,而中间的平衡点往往也是难以接受的。
    代码已经上传github,需要的同学去这里:

    https://github.com/gynnash/AutoEncoder/tree/master

  • 1
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值