文本特征提取_基于深度学习的文本检索&匹配算法

最新推荐文章于 2024-09-05 23:59:13 发布

weixin_39757739

最新推荐文章于 2024-09-05 23:59:13 发布

阅读量1k

点赞数

文章标签：文本特征提取

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_39757739/article/details/111576057

版权

该文介绍了基于深度学习的文本检索算法，如DSSM、CLSM和DSSM结合LSTM/GRU。通过Letter n-gram、CNN和RNN进行特征提取，用于构建语义网络，实现文本匹配和检索。损失函数以最大化相关文档的后验概率为目标。

摘要由CSDN通过智能技术生成

最近在实现一个文本检索式的问答机器人，技术核心是文本相似建模，于是对相关的深度学习方法应用进行了调研，这里做个基本的梳理。默认读者有信息检索的基础知识，所以没有细致的概念解释，如果发现错误还请各位旁友们及时指正。

应用&简单介绍

1. 基于深度学习的检索算法常见做法是，定义或者学习出一个静态的语义网络结构，它可以用来向量化query和documents，句向量模型（sen2vec、doc2vec）也可以理解成要输出这么一个网络结构。对所有query和doc进行向量化预计算，然后借助annoy这种向量近邻计算框架即可实现检索，当然排序阶段也可以拿来计算文本pair对的得分。

2. 具体检索算法区分有监督和无监督，『分词-->词向量-->求平均』就是一种最简单的无监督做法，有监督算法应用的数据对象多为搜索引擎的搜索点击日志数据，这是本文重点。

3. 文本匹配按层次可分为keyword-based matching和exical matching，或者称为local matchine和global matching，前者是文本序列的单元之间的相似，后者是文本表意上的相似。

4. 介绍算法那部分主要就输入数据格式、特征单元与特征表示、网络结构和损失函数进行展开。

5. 一种英文文本切分方法：Letter n-gram，以Letter-Tr

最低0.47元/天解锁文章

weixin_39757739

关注

0
点赞
踩
4

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。