图像技术在上亿规模实拍图片中的应用(算法好文)

本文介绍了闲鱼如何利用视觉技术解决图像内容重复、图文不一致、图片质量及违规内容等问题。通过构建大规模图片分类模型和基于分类模型学习图像比对特征,实现图片内容的识别和去重。通过图像分类,过滤低质量图片,违规商品,并提升搜索和推荐的多样性。
摘要由CSDN通过智能技术生成

背景

闲鱼作为一个自由的商品和内容分发市场,每天有上百万的用户图片上传,其中不乏图片重复,图片描述内容不明确、图文不符等低质量的商品;也有各种搞笑、抖机灵等倒流的内容;还有色情、黑产等违规或违法灰色地带。如果让这些低质的商品和内容都正常流入每天日常的商品展示中,不但会影响用户的交易效率,还会降低产品在市场中的口碑和价值,甚至增加被监管治理和叫停的风险,其中较为典型的问题包括:

  • 图片内容重复:在闲鱼日常的发布内容中,有些卖家为了增加自己商品的曝光机会用不同的描述和图片创建多个相同商品进行投放,这时文本的表述可能完全不同,但商品图片看上去基本一样如图1所示:

图1.相同商品图片

  • 图文内容不一致:部分图片内容与所售商品描述不一致,在排序时这些商品与其他一致的商品混排在一起时会影响整体搜索的体感和效果,如图2所示;

图2.商品图片和文本描述差异

  • 图片内容质量:用户上传的图片不是所有图片都适合做商品图片展示的,例如商品包装,商品局部,非商品图片,发票单据,商品描述图等,如图3;

图3.不适合的商品图片

  • 违规:一些卖家为了吸引买家的注意,会把一些如美女、性感和搞笑等违规图片作为商品主图导流,严重影响闲鱼的品牌价值和公平优良的交易环境,如图4。

图4.美女首图商品

上述问题都可以归结为和视觉技术所涉及的范围,实际上互联网公司已经大规模的应用相关技术解决实际问题,例如阿里、百度、腾讯等头部公司都有自己的视觉算法团队,每年各大顶会也都是常客。大家不但探索相关的前沿技术,同时将其转化应用到实际的产品中,如图像特征在拍立淘、百度识图中的应用,图像检测直接运用在自动驾驶和工业质检中,图像识别相关技术分别在审核、短视频、广告等业务得到广泛的应用。本文针对闲鱼产品中涉及的部分问题介绍如何利用视觉技术解决,例如图片内容本身非商品或是色情等违规的物料都是可以利用图像分类,图像特征等方法去解决,以下主要从以下几个部分介绍:

  1. 构建大规模图片分类模型,学习闲鱼产品中的图片分布特征;

  2. 基于分类模型学习图像比对特征;

  3. 组合图像分类和图像特征解决实际问题;

构建大规模图片分类模型

图像分类模型是视觉模型的基础,检测,分割等视觉问题都依赖基础的图像的分类模型。在闲鱼场景构建图像分类模型存在以下几个难点:

  1. 图片大部分是用户上传,图像质量偏低,增加识别难度;

  2. 图片内容不限于商品类目本身,涵盖很多和商品不相关其他类别,整体类别定义困难;

  3. 闲鱼商品的title是由用户自己填写的,结构化信息参差不齐,同时还包含很多口语化的噪声;

  4. 同类的商品包含的噪声图片很大,不能直接训练

  5. 数据标注成本高,短时间内不能有效覆盖大部分数据;

我们这里要求不直接识别出众多的具体商品类目名称,只要可以区分彼此即可,对于需要重点识别的类别,我们采用训练好的特征进行样本挖掘,整体流程如图5所示,包括基础图像

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值