首例“AI声音侵权案”宣判！聊聊怎么调用API接入百度内容审核平台

ZNNRZNNR

于 2024-04-30 14:50:40 发布

阅读量1.3k

点赞数 19

文章标签：人工智能 AIGC 知识图谱百度云内容运营个人开发音视频

本文链接：https://blog.csdn.net/ZNNRZNNR/article/details/138345285

版权

去年的“AI孙燕姿”活跃至今，最近生成式AI在音频方面又玩出了新花样，比如昆仑万维发布「天工Sky Music」，Open AI发布能用15秒克隆任何语音的Voice Engine，网易云面向专业音乐人内测「网易天音」，Stable Audio 2.0支持用户通过文本或音频生成3分钟的高质量音乐。

在全球风险投资的低潮期，生成式AI(GenAI)逆市而起，融资额增长了400%，但GenAI的商业化还处在探索阶段。越来越多的公司加入AI生成音频的浪潮，试图借此打通一条AI变现的新路径。

使用过生成式AI的人可能都知道，AI生成的内容不可控，甚至还有很多潜在的风险。2024年4月，全国首例“AI声音侵权案”一审宣判，被告方书面赔礼道歉，并赔偿原告各项损失25万元。为了提前规避风险，对AI生成的内容进行专业审核是非常必要的。

一、刨根究底：明知不可控，为什么还要用AI生成声音？

1. 作为一种可商业化的创作工具

以前，使用电子技术制作虚拟歌手有着广泛的市场，洛天依、初音未来及其歌曲经久不衰。通过深度学习和自然语言处理等技术，现在的AI可以生成具有更高真实感和相似度的声音。这种技术可以应用于各种领域，如语音合成、语音识别、语音克隆、音乐创作等。

AI生成音频的市场需求正在不断增加，商业化前景十分广阔。4月初，基于昆仑万维「天工3.0」超级大模型打造的「天工SkyMusic」开启免费邀测，人声“以假乱真”，能够生成80秒44100Hz采样率双声道立体声的高质量AI歌曲。网易AI音乐推出「网易天音」，主打AI作词、AI编曲和AI一键写歌，“录入灵感、AI生成出稿、手动调整、导出”即可创作一首歌曲。

2.生成有声读物，提供阅读辅助

对于儿童或者暂时没有阅读条件的人群（如视力障碍者、车辆驾驶员），“AI生成音频”可以提供个性化、定制的服务，通过将文本转换成语音、搭配自然而富有感情的声线的方式，让用户更快速地获取信息，从而提高阅读效率。此外，能为语言能力受损的患者提供治疗应用程序，或为有学习需求的患者提供教育增强功能。

例如，Age of Learning作为一家儿童教育公司，正在使用AI技术生成各种有声读物，并把AI生成声音和GPT-4结合起来，与学生进行实时、个性化的互动。

3.改善偏远地区的基础服务，触及全球社区

在一些发展相对滞后、非通用语种的地区，信息传播往往受到各种限制。通过AI生成音频的方式，偏远地区能快速同步最新资讯，促进信息的跨语言传播，提高信息传播的效率和准确性，协助改善公民基础服务。

二、解决方案：调用API接入百度内容审核平台

打开内容审核平台内容审核_内容安全_智能审核-百度AI开放平台，登录百度智能云账号后，别忘记先领取免费资源薅羊毛！！一分钟快速领取某云平台内容审核免费测试资源！-CSDN博客。

1.创建应用

应用是调用API服务的基本操作单元，可以基于应用创建成功后获取的API Key及Secret Key，进行接口调用操作，及相关配置。

应用名称：必填项，用于标识您所创建的应用的名称，支持中英文、数字、下划线及中横线，此名称一经创建完毕，不可修改；

接口选择：必填项，每个应用可以勾选业务所需的所有AI服务的接口权限（仅可勾选具备免费试用权限的接口能力），应用权限可跨服务勾选，创建应用完毕，此应用即具备了所勾选服务的调用权限；

包名绑定：选填项，如果您需要使用OCR、AR及语音客户端SDK服务（iOS/Android），需要绑定包名信息，以便生成授权License，上图中勾选了「通用文字识别」权限后，即展现此项。注：人脸识别客户端SDK需要单独申请使用，无需在此配置；

应用描述：必填项，对此应用的业务场景进行描述。

填写完毕后，即可点击「立即创建」，完成应用的创建。点击左侧导航中的「应用列表」，可以进行应用查看：

创建完毕应用后，平台将会分配此应用的相关凭证，主要为AppID、API Key、Secret Key。调用API接口时，可以使用这些凭证，进行Access Token（用户身份验证和授权的凭证）的生成。

2.调用服务

调用AI服务相关的API接口有两种调用方式，两种不同的调用方式采用相同的接口URL。区别在于请求方式和鉴权方法不一样，请求参数和返回结果一致。

调用方式一请求URL数据格式

向授权服务地址https://aip.baidubce.com/oauth/2.0/token发送请求（推荐使用POST）。百度AI开放平台使用OAuth2.0授权调用开放API，调用API时必须在URL中带上Access_token参数。Access_token是用户的访问令牌，承载了用户的身份、权限等信息。

grant_type： 必须参数，固定为client_credentials；

client_id： 必须参数，应用的API Key；

client_secret： 必须参数，应用的Secret Key；

https://aip.baidubce.com/oauth/2.0/token?grant_type=client_credentials&client_id=Va5yQRHlA4Fq5eR3LT0vuXV4&client_secret=0rDSjzQ20XUj5itV6WRtznPQSzr5pVw2&

获取Access_token有三种方式：通过代码的形式获取，使用网页调试工具获取，在线调试工具。具体可参考Access Token获取

POST中参数按照API接口说明调用即可。

例如图像审核API，使用HTTPS POST发送：

https://aip.baidubce.com/rest/2.0/solution/v1/img_censor/v2/user_defined?access_token=24.f9ba9c5241b67688bb4adbed8bc91dec.2592000.1485570332.282335-8574074

调用方式二请求头域内容

在请求的HTTP头域中包含以下信息，API认证机制authorization必须通过百度云的AK/SK生成：

host（必填）
x-bce-date （必填）
x-bce-request-id（选填）
authorization（必填）
content-type（必填）
content-length（选填）

作为示例，以下是一个标准的图像审核的请求头域内容:

POST /rest/2.0/solution/v1/img_censor/v2/user_defined HTTP/1.1accept-encoding: gzip, deflate

x-bce-date: 2015-03-24T13:02:00Z

connection: keep-alive

accept: */*

host: aip.baidubce.com

x-bce-request-id: 73c4e74c-3101-4a00-bf44-fe246959c05e

content-type: application/x-www-form-urlencoded

authorization: bce-auth-v1/46bd9968a6194b4bbdf0341f2286ccce/2015-03-24T13:02:00Z/1800/host;x-bce-date/994014d96b0eb26578e039fa053a4f9003425da4bfedf33f4790882fb4c54903

调节参数的秘诀可点击如何成为调参侠：解锁审核系统精准配置秘籍

三、音频审核技术原理

语音、语义、声纹多重审核保障。使用领先的ASR（语音识别）引擎，将音频中的语音转写为文本，利用文本审核模型识别违规内容，并结合音频特征识别技术，准确识别低俗声音（呻吟、娇喘、ASMR）等违规内容。

1.短音频同步审核

采用同步方案，接口返回速度快，适合对响应时延要求高的场景。音频审核能力包含娇喘声检测和语音内容审核，语音内容审核是先通过语音识别将语音转换为文字，再通过文本审核，审核项目与文本审核一致。

2.音频文件异步审核

采用异步方案，适合长音频文件批量审核的场景。音频审核能力包含娇喘声检测和语音内容审核，语音内容审核是先通过语音识别将语音转换为文字，再通过文本审核，审核项目与文本审核一致。

3.文本审核

百度违禁词库：包含百度海量历史数据挖掘，提供对封禁词语的识别审核能力
文本色情：对文本中的色情行为描述、色情资源链接、低俗交友、污秽文爱等内容进行识别
恶意推广：对文本中带有售卖意向的软文广告，微信、QQ等个人联系方式等违规内容及变体进行识别
低俗辱骂：对文本中的侮辱谩骂、人身攻击、消极宣泄等内容进行识别
低质灌水：对网络社区常见的乱码、水帖、刷屏等无意义的灌水信息进行识别
隐私信息：对涉及个人身份的隐私信息进行识别，如身份证号、社保卡号、银行卡号等
广告法审核：对广告法中要求的不能出现的违规词进行检测

附录：常见术语

术语	解释
审核策略	审核策略是包含了用户审核规则的一条配置集合，包括选择需要的审核维度以及对应的自定义松紧度。一个应用（AppID）下可以包含多条策略以供适配不同的业务场景。
审核维度	以图像审核为例，包含色情、违禁等一级审核维度，以及对应的性玩具、艺术品色情；赌博、吸烟等细分审核维度
置信度	模型对对送审内容的违规风险打分结果，结果介于数字0-1之间，数值越大意味着风险可能性越高。
自定义松紧度	可对各项审核维度的审核严格程度进行自定义调节。点击各审核维度的“”展开按钮，即可以看到调整审核松紧度的滑动条：每个审核标签都有一个滑动条和两个调整审核松紧度的滑块，两个滑块将整个区域分为白色合规区、橙色疑似区、红色违规区，红色区域越大越多的文本会落在这个区域，审核越严格，反之亦然。