AI-机器视觉技术在舆情领域的应用可能性

最新推荐文章于 2024-07-29 09:10:44 发布

jayli517

最新推荐文章于 2024-07-29 09:10:44 发布

阅读量1.1k

点赞数

文章标签：人脸识别大数据编程语言机器学习人工智能

本文链接：https://blog.csdn.net/jayli517/article/details/122821414

版权

舆情领域从基础的文本信息监测技术已经拓展并升级为多模态监测了，所谓多模态即为音视图文的全面监测手段。本文就会基于AI领域的机器视觉技术探讨一下在舆情监测领域的应用可能性以及可行性。

这里我们先排除掉文本和音频载体，这部分的舆情监测通常是利用文本化——NLP语义分析来进行结构化并监测，机器视觉技术在这方面很少有用武之地（OCR文本识别是一种应用）的。机器视觉部分在图片和视觉部分的结构化能力决定了应用能力以及落地可行性。

我把机器视觉技术的应用从功能角度分为三大类，分别是：建模、比对、人脸识别。建模是AI技术的直接使用，首先AI技术中的深度学习技术在图片识别和分类部分一直有很高的应用程度，只要能够训练出有效的分类模型，就可以进行特定舆情类型的识别。模型的训练部分，优势在于高质量的已标注数据可以建立有效的模型，提高识别准确率；劣势的部分在于训练模型的过程中，通常召回率是先提升的，但是准确率的提升如果不到一定水平的话，仍然不会得到客户太高的认可度。比如，100万图片，已经正确识别了99万的图片，但是还有1万的图片没有识别需要处理，这也就意味着需要人工处理1万张图片，仍然是很大的工作量，但是实际上理论的准确率已经达到99%了。也就是说，在互联网海量数据的面前，准确率即使已经非常高了，仍然有可能导致未被识别的部分造成大量人工工作量。

但是这只是其中一部分问题，另一个很重要的问题就是分类识别的可行性有多高？也就是需求部分。比如，为了维护社会的稳定，最需要识别的就是散播“负能量”信息的传播源，那识别的时候就有命中和排除两个维度，首先比如“打砸抢”事件，识别的过程中，图片的共性特征会被模型训练发现并学习，形成命中维度，但是命中的图片中可能很多只是一群人聚在一起扯淡、抢购、逛街，而这些部分又是排除维度。也就是说，训练每一个模型的过程中，都需要足够多数量的样本，包括命中和排除两个维度的样本，极大地增加了模型训练的难度。如果换个角度思考，反而更有可能实现一些有价值的落地功能，例如某政府或组织机构办公地点周边是重点监测对象，那么可以训练的过程中着重训练具备这些地域特征的模型，做第一层分类，再通过其他舆情模型进行第二层分类，这样可能可以更精确的发现有针对性的目标。

比对功能是一个很直接的功能，首先人类的处理速度虽然不及机器，但是对舆情事件的识别、理解、定级能力是远高于目前的AI水平的，所以当人发现一个舆情事件的时候，就可以找出相关的图片作为样本图片，开始在全网检索、比对，从而发现更多的相同、相似、相关图片，从而进一步完善监测。但是比对由于是发现相同、相似、相关，于是就出现了另一系列问题，包括图片分辨率变化、长宽比变化、颜色变化、局部水印/LOGO、添加文字、局部修改、角度变化等，相关的识别技术和手段已经具备，所以比对功能实际上是一个工作流程里最容易实现并且准确率搞的落地方案。

人脸识别功能是一个特别的分支，因为识别技术和方法和一般的卷积神经网络等技术不一样，所以这个功能部分我单独摘出来说。首先人脸识别的本质大家都清楚，就是要从图片或视频里找出目标人物，识别时会存在大量的问题，包括：目标人物样本图片不足（正面、左右侧面、光照变化和分辨率等情况），待识别图片的质量太差、待识别图片人脸区域小于40像素、人物脸部遮挡（眼镜、帽子、饰物等）。这些问题都会导致人脸识别的准确率降低，不过由于国内各大型AI公司的不停技术发展，很多问题还是有技术手段或可预期有技术手段解决。

综合以上三个功能，图片和视频舆情我们能做到什么呢？例如：通过比对功能找出已知的舆情事件图片在网络上的传播源；对某个类型的舆情事件“海捞”出来传播源，也就是日常的大范围模糊监测；对重要领导人或者负面目标人物进行监测，关注传播情况。更具体的案例就不能多说了，毕竟是涉密的。

以上是一些落地应用场景，具体系统的设计过程中，其实有很多问题，首先不可能全网图片进行监测，那么就必须有一个边界，其次要计算图片处理能力以及处理量，从而决定是云计算还是物理机，是CPU还是GPU等等，不要忘记还有数据吞吐、IO、带宽等。由于技术要求并不低，所以目前很多公司还是很难比较低成本的实现这样的系统，也就导致到现在也没看到谁做出来像样的SAAS产品。

再说一个有些特点的，就是还有一种高阶用法是将视觉技术与语义技术相结合的方法，这对图片或视频的场景结构化分析能力要求很高。首先国外在几年前就已经做了一系列尝试，将某个场景内的全部信息尽可能结构化，包括人、车、广告牌、物体、动物、着装颜色、行动方向等等，如果这些结构化的技术达到一定水平之后，就可以进行语义级别的检索，例如：找出2018年11月内全部有红色上身着装的青年姑娘的照片或视频。这种检索或监测的方法可能会成为未来的一种可能性，会大幅度降低一些操作的难度。

以上是我对多模态舆情监测系统的一些思考和想法，并且我也设计过一套系统并给网信办演示过了。我认为以上的技术越成熟落地，这种系统的实现可能性就越高，一旦实现，舆情就终于可以突破文本层面，可以达到真正的音视图文泛用型。对于我的一些思考，现在也只是一些未来的可能性，也许并不会往这个方向发展，但是我很乐意对此进行探讨，感兴趣的朋友请私信联系。

jayli517

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
打赏
0
评论
AI-机器视觉技术在舆情领域的应用可能性

舆情领域从基础的文本信息监测技术已经拓展并升级为多模态监测了，所谓多模态即为音视图文的全面监测手段。本文就会基于AI领域的机器视觉技术探讨一下在舆情监测领域的应用可能性以及可行性。这里我们先排除掉文本和音频载体，这部分的舆情监测通常是利用文本化——NLP语义分析来进行结构化并监测，机器视觉技术在这方面很少有用武之地（OCR文本识别是一种应用）的。机器视觉部分在图片和视觉部分的结构化能力决定了应用能...
复制链接

扫一扫