【数据应用案例】基于图像搜索引擎的图文无关识别方法

最新推荐文章于 2025-04-29 17:59:08 发布

稻蛙

最新推荐文章于 2025-04-29 17:59:08 发布

阅读量1k

点赞数

分类专栏：数据产品案例文章标签：数据案例知乎图文匹配图像搜索

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/u013382288/article/details/82876792

版权

数据产品案例专栏收录该内容

76 篇文章

订阅专栏

案例来源：@字节跳动技术团队

案例地址：https://www.jianshu.com/p/5bab8008e98e

0. 背景：知乎、悟空问答中，用户的回答配上美女、风景图，能大大提高点击率和点赞率，这样对正常回答的内容不公平，影响排序质量。需要找到一种方法，识别图文不符的内容，降低其排序权重。

1. 传统方法：

1）色情图片识别

2）OCR技术：从图片中识别文字，并与内容正文计算相似度

3）图像分类：通过图像分类技术，得到图像的分类，然后与文章所在类别进行比较。缺点是现有图像分类的体系和互联网内容的分类体系不一致（典型的图像分类标签包括：猴子、猫、人物等；而文本内容的分类标签的例子包括：历史、财经、股票、互联网等），导致效果很差

2. 基于图像搜索引擎的图文无关识别方法-思路：

1）给定图片G和文本W，将G上传到图像搜索引擎进行检索

2）提取前K个来源的title

3）将title分词，合并得到图片的描述M

4）计算M和W的相关性，得到一个打分S

5）如果打分S低于一个阈值，则认为图文无关

3. 基于图像搜索引擎的图文无关识别方法-相似度计算：

1）标注一批图文内容（图文相符/图文不符）：具有高分享量的回答，以及高评级作者写的回答，配图都比较相关；选择这一部分回答并去掉首尾两张图作为正样本；这些图随机匹配一个回答作为负样本

2）以GBDT作为分类器，训练分类模型。根据模型的输出值作为相似度打分

3）特征工程如下：

a. 命中关键词个数

b. 关键词中名词个数

c. IDF

d. BM25（https://www.cnblogs.com/hdflzh/p/4034602.html）

e. 同义词命中个数

f. 其它

评论 2

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。