独家|GenAI年中回顾,2024网络内容审核的API实战指南

GenAI,即生成式人工智能,正在不断推动各个领域的创新和发展。

一、年中回顾

2024 年被称为视频生成技术的爆发之年,各类 GenAI 在全球范围引领了一波又一波的潮流,真称得上是神仙打架。让我们共同回顾 2024 上半年的 GenAI 有哪些主要表现,并讨论,大量 AI 生成内容的涌现,又对互联网内容安全的格局产生了哪些影响?

1.AI 生成视频

北京时间 2 月 16 日凌晨,OpenAl 发布文本生成视频的 AI 模型 Sora,瞬时刷屏科技圈,成为 2024 年开年“顶流”。Luma AI 首发了视频生成模型 Dream Machine,可以通过文字或图片生成高质量的逼真视频,API 对全球免费开放。谷歌推出视频生成模型 Veo,可以对光照、镜头语言、视频颜色风格等进行设定,支持长视频生成。此外,谷歌团队发布 110 亿参数 Genie「精灵」,用一张草图就能创造出一个虚拟世界。

在国内,生数科技联合清华大学发布了视频大模型「Vidu」,支持一键生成 16 秒高清视频,还能虚构超现实主义画面。腾讯和清华大学、香港科技大学联合推出全新图生视频模型"Follow-Your-Click”,可以让图片中原本静态的区域动起来,一键转换成视频。极佳科技联合清华大学自动化系,发布超长时长、高性价比、端侧可用的 Sora 级视频生成大模型视界一粟 YiSu。6 月,快手 AI 团队自研“可灵”视频生成大模型,引发国内外热议,其生成的视频分辨率高达 1080p,时长最高可达 2 分钟(帧率 30fps),且支持自由的宽高比。

2.AI 生成图像

2024 年,GenAI 在生成图像方面取得了新进展。

Mistral AI 推出了全新专家混合(MoE)大模型 Mixtral 8x22B 磁力链接,模型参数规模高达 1760 亿。Stability AI 开源了全新文本生成图像模型 Stable Cascade,大幅度降低了对推理、训练的算力需求。谷歌推出 Imagen 文生图模型,具备更高的细节调整功能、逼真的光线和更少的干扰,能够从草图快速生成高分辨率图像。Adobe 发布了 Firefly 图像生成模型的最新版本——Firefly Image3,声称具有“摄影细节”的图像生成能力。腾讯混元团队联合中山大学、香港科技大学,联合推出全新图生视频模型“Follow-Your-Pose-V2”。七火山科技正式发布Etna文生视频模型,支持从简单文本到高质量视频的转换。

3.AI 生成音乐

今年,音乐创作呈现出了人机协作的趋势,AI 能创造更加丰富、多元的音乐作品。

腾讯发布多模态音乐生成模型 M2UGen,融合了音乐理解和多模态音乐生成任务,支持图片、视频生成音乐。网易云音乐旗下一站式 AI 音乐创作工具“网易天音平台”,具备词、曲、编、唱、混等音乐创作全流程的 AI 创作辅助功能。昆仑万维的“天工 3.0”基座大模型与“天工 SkyMusic”音乐大模型正式开启公测。

Adobe 推出了新的生成式 AI 实验项目——Project Music GenAI Control,允许用户使用文本提示生成音乐,然后直接编辑音频,无需跳转到专门的编辑软件。Stability AI 发布 AI 音频模型 Stable Audio Open,支持文本生成鼓点、乐器等音效。Al 初创公司 Suno 推出 V3 音乐生成模型,只需几秒即可生成 2 分钟的爆款音频。ElevenLabs 推出文本生成歌曲产品 ElevenLabs Music,用户仅通过文本提示就能生成各种音效、短乐器曲目、音景和角色声音。Pika 发布 Sound Effects 功能,可以给生成的视频自动配音效。

4.AI 生成 3D 模型

生成式 AI 的浪潮席卷而来,科技公司正在冲击 AIGC 的下一个突破口——3D 生成。

Luma AI 发布了一个文生 3D 模型的项目——Genie1.0,只需要输入一句文字提示,就能在 10 秒内生成四个高保真的 3D 模型。初创公司 NationAI 推出了生成式人工智能技术 Neuroid,可以根据类似 GPT 的文本提示,生成人形角色和四条腿动物的 3D 动画。Meta 与德国慕尼黑工业大学研发创新模型 ViewDiff,通过文本、图像或二者结合使用,就能快速生成高质量多视角3D图像 。A utodesk 推出了生成式人工智能项目——Project Bernini 的文本转3D 工 具,致力于理解现实世界物体的存在方式。

浙江大学、蚂蚁集团、深圳大学联合推出了创新模型 MaPa,能通过文本直接生成高分辨率、物理光照、超真实材质的3D 模型,可以极大提升游戏、VR、AR、影视等行业的开发效率。南洋理工大学、上海AI 实验室等共同推出了一款名为3DTopia 的文生3D 基础模型,可以在五分钟内生成多样化、高精度的3D 模型 。

除此之外,OpenAl 发布了全新的生成式 AI 模型 GPT-4o,并正式与 Apple 展开合作。用户将能在 iPhone、iPad 和 Mac 等设备上直接免费使用 ChatGPT(GPT-4o 模型)的特殊功能,例如内容生成、图像及文档理解等。

二、无法回避的挑战

从内容层面来看,GenAI 已经被大量使用和传播,例如某在线运动 APP 透露,其 5000 节官方运动课程中有 15%为 AIGC。可是,由于人工智能技术的复杂性和不确定性,其生成出来的内容会有无法控制的偏差,不仅可能误导用户,还可能对社会稳定造成威胁。

AIGC 的潜在风险

不良内容

生成色情、广告、恶心、违禁、辱骂、灌水等违规内容。

低质图像

经过篡改或伪造,生成美观度、清晰度、真实性较低的内容。

违规变体

出于营销、辱骂等目的,隐晦生成拼音、谐音、拆字等变体。

虚假信息

凭空捏造或歪曲事实,生成与现实相悖或者不符合常理的信息。

政治敏感

AI 生成的内容可能涉及敏感政治话题,传播不当的政治观点。

广告营销

在文本、图像、视频等内容中,隐晦地添加各种广告信息。

很多企业开始意识到 GenAI 的商业价值,并积极将其应用于业务场景中,但其不确定性也是一个无法回避的挑战,任重而道远。当下,如何选择高性价比的内容审核方式,把违规内容拦截在市场外,对GenAI的开发者和使用者来说十分重要。

三、用 API 接入内容审核平台

出于低代码、可视化、灵活配置等目的,本节以某大厂的AI平台为例,讨论怎么用API接入内容审核平台。

1.创建应用

应用是调用 API 服务的基本操作单元。

我们可以基于应用创建成功后获取的 API Key 及 Secret Key,进行接口调用操作,及相关配置。

填写完毕后,即可点击「立即创建」,完成应用的创建。点击左侧导航中的「应用列表」,可以进行应用查看。

创建完毕应用后,平台将会分配此应用的相关凭证,主要为 AppID、API Key、Secret Key。调用 API 接口时,可以使用这些凭证,进行 Access Token(用户身份验证和授权的凭证)的生成。

2.调用服务

调用 AI 服务相关的 API 接口有两种方式,两种不同的调用方式采用相同的接口URL。区别在于请求方式鉴权方法不一样,请求参数和返回结果一致。

调用方式一 请求 URL 数据格式

向授权服务地址https://aip.baidubce.com/oauth/2.0/token发送请求(推荐使用POST)。百度AI开放平台使用OAuth2.0授权调用开放API,调用API时必须在URL中带上Access_token参数。Access_token是用户的访问令牌,承载了用户的身份、权限等信息。

grant_type: 必须参数,固定为client_credentials

client_id: 必须参数,应用的API Key

client_secret: 必须参数,应用的Secret Key

https://aip.baidubce.com/oauth/2.0/token?grant_type=client_credentials&client_id=Va5yQRHlA4Fq5eR3LT0vuXV4&client_secret=0rDSjzQ20XUj5itV6WRtznPQSzr5pVw2&

获取 Access_token 有三种方式:通过代码的形式获取,使用网页调试工具获取,在线调试工具。具体可参考Access Token获取

POST 中参数按照 API 接口说明调用即可。例如图像审核API,使用HTTPS POST发送:

https://aip.baidubce.com/rest/2.0/solution/v1/img_censor/v2/user_defined?access_token=24.f9ba9c5241b67688bb4adbed8bc91dec.2592000.1485570332.282335-8574074

调用方式二 请求头域内容

在请求的 HTTP 头域中包含以下信息,API 认证机制 authorization 必须通过百度云的AK/SK 生成:

  • host(必填)

  • x-bce-date (必填)

  • x-bce-request-id(选填)

  • authorization(必填)

  • content-type(必填)

  • content-length(选填)

示例:一个标准的图像审核的请求头域内容

POST /rest/2.0/solution/v1/img_censor/v2/user_defined HTTP/1.1accept-encoding: gzip, deflate

x-bce-date: 2015-03-24T13:02:00Z

connection: keep-alive

accept: */*

host: aip.baidubce.com

x-bce-request-id: 73c4e74c-3101-4a00-bf44-fe246959c05e

content-type: application/x-www-form-urlencoded

authorization: bce-auth-v1/46bd9968a6194b4bbdf0341f2286ccce/2015-03-24T13:02:00Z/1800/host;x-bce-date/994014d96b0eb26578e039fa053a4f9003425da4bfedf33f4790882fb4c54903

四、发展方向

2024 年,图像、视频、音频和 3D 模型生成等领域的技术不断突破,使得 GenAI 的应用更加广泛和深入。

以结合了大模型的低代码平台为基础,运用先进算法和技术手段,对 AI 生成的内容进行自动化审核,可以有效地减少不良信息传播,为社会稳定进步和业务健康发展保驾护航。

  • 23
    点赞
  • 23
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值