【数据应用案例】基于图像搜索引擎的图文无关识别方法

案例来源:@字节跳动技术团队

案例地址:https://www.jianshu.com/p/5bab8008e98e

 

0. 背景:知乎、悟空问答中,用户的回答配上美女、风景图,能大大提高点击率和点赞率,这样对正常回答的内容不公平,影响排序质量。需要找到一种方法,识别图文不符的内容,降低其排序权重。

 

1. 传统方法:

  1)色情图片识别

  2)OCR技术:从图片中识别文字,并与内容正文计算相似度

  3)图像分类:通过图像分类技术,得到图像的分类,然后与文章所在类别进行比较。缺点是现有图像分类的体系和互联网内容的分类体系不一致(典型的图像分类标签包括:猴子、猫、人物等;而文本内容的分类标签的例子包括:历史、财经、股票、互联网等),导致效果很差

 

2. 基于图像搜索引擎的图文无关识别方法-思路:

  1)给定图片G和文本W,将G上传到图像搜索引擎进行检索

  2)提取前K个来源的title

  3)将title分词,合并得到图片的描述M

  4)计算M和W的相关性,得到一个打分S

  5)如果打分S低于一个阈值,则认为图文无关

 

3. 基于图像搜索引擎的图文无关识别方法-相似度计算:

  1)标注一批图文内容(图文相符/图文不符):具有高分享量的回答,以及高评级作者写的回答,配图都比较相关;选择这一部分回答并去掉首尾两张图作为正样本;这些图随机匹配一个回答作为负样本

  2)以GBDT作为分类器,训练分类模型。根据模型的输出值作为相似度打分

  3)特征工程如下:

    a. 命中关键词个数

    b. 关键词中名词个数

    c. IDF

    d. BM25(https://www.cnblogs.com/hdflzh/p/4034602.html

    e. 同义词命中个数

    f. 其它

 

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 2
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值