面向加密云数据的多关键字语义搜索方法

面向加密云数据的多关键字语义搜索方法

摘要:文中面向加密云数据提出了一种支持多关键字的安全语义搜索解决方案,其核心思想 是基于主题模型获取文档的主题向量和主题的词分布向量,通过计算查询关键字与各个主题 的语义相似度生成查询向量,支持在同一向量空间内评价查询向量与文档主题向量的相似 度;提出了基于 EMD 并结合词嵌入计算查询向量与主题相似度的方法,提升了查询关键词与主题之间语义相似度的准确性;为支持高效语义搜索,构建了主题向量索引树,并采用 “贪婪搜索”算法优化关键字搜索。
关键词:加密可搜索;语义搜索;隐私保护;云计算;查询处理

一、思想:
1.这篇文章是基于 LDA 构建“文本-主题-词”的三层贝叶斯概率模型,因为我们认为每个文本含有多个主题,每个主题又包含多个关键词。
2.通过”Word2Vec”模型将关键词转化为向量;
3.通过 EMD 距离来计算文章主题词分布与查询向量关键词分布之间的语义相似度。
4.本文采用贪婪深度遍历搜索算法返回 top-k 个最符合查询关键词的文档,这个方法不需要便利整个搜索树节省了大量查询时间,还可以按照相关度对结果进行排序。

二、系统模型:
在这里插入图片描述

1数据拥有者:给每个文档生成标识 fid 与密钥 sk,加密文档集 F 为密文文档集 C, 把 sk 发送给查询用户。将密文文档集上传公有云服务器。将明文文档分词,通过 LDA 主题模型得到文档集的主题分布矩阵和主题的词分布矩阵,将文档-主题矩阵上传给云服务器, 主题-词分布矩阵发送给查询用户。
2查询用户:将想要查询的关键词集 K 转化成查询向量 Q,并将 Q 上传给服务器。
3公有云服务器:存储加密文档;将 W 生成索引树;将查询结果进行排序,返回最相关的 K 篇文档给用户。

三、方案的安全性分析:
(1)文档隐私安全。数据拥有者使用对称加密算法对明文文档进行加密,将密钥授予查询用户,公有服务器无法获得密钥,难以破解密文文档,保障了文档的隐私安全。
(2)关键词隐私安全。关键词通过词嵌入的方式转化为词向量,云服务器无法获得查询用户输入的关键词,仅能通过向量内积计算相似度,从而保障了用户输入关键词的隐私安全。
(3)索引隐私安全。索引树节点中含有文档向量、文档标识符。文档向量通过 LAD 模型生成,其过程是不可逆的,所以无法通过文档向量获得文档信息。标识符仅用来识别密文文档, 云服务无法通过索引解读文档的具体信息,保障了索引的隐私安全。
(4)查询隐私安全。查询向量通过计算查询关键词与各个主题的 EMD 距离得到,不包含主题内容。云服务器由于不会获得主题的相关信息,因此无法生成有效的陷门,保障了查询 的隐私安全。

四、总结
通过 LAD 语义模型桥接关键词和文档之间的语义关系,并极大地减少了查询过程中时间和空间的消耗;另外,通过构建索引树和深度优先的遍历方法,进一步提高了搜索效率。

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值