98.1 AI量化开发：长文本AI金融智能体(Qwen-Long)对金融研报大批量处理与智能分析的实战应用

原创

已于 2025-01-24 16:41:38 修改 · 1.9k 阅读

28 ·

CC 4.0 BY-SA版权

文章标签：

#人工智能 #金融 #大数据 #机器学习 #python #数学建模

于 2025-01-24 15:13:18 首次发布

0. 承前

本篇博文是对文章，链接:
5. 马科维茨资产组合模型+政策意图AI金融智能体(Qwen-Max)增强方案（理论+Python实战）
6. 马科维茨资产组合模型+政策意图AI金融智能体(DeepSeek-V3)增强方案（理论+Python实战）
的政策信息输入过少而作的改良开发：金融研报导入AI金融智能体，实现批量处理与智能分析。

本文主旨：

信息扩充：由于上两篇文章中，AI金融智能体输入信息量过少，因此本文使用长文本大模型(Qwen-Long)来扩充AI智能体的信息输入。
开发过程记录：本文目的是打通大批量金融研报至长文本AI金融智能体(Qwen-Long)的信息通道，并没有实现分析结果对金融资产组合权重的影响，具体实现参考文章：
7. 马科维茨资产组合模型+金融研报AI长文本智能体(Qwen-Long)增强方案（理论+Python实战）

如果想更加全面清晰地了解金融资产组合模型进化论的体系架构，可参考：
0. 金融资产组合模型进化全图鉴

1. 简介

本文介绍如何使用通义千问大模型(Qwen-long)来批量处理和分析PDF研究报告。通过DashScope API，我们可以让AI模型阅读并分析多个PDF文件，从而获得专业的分析见解。

1.1 通义千问(Qwen-Long)的长文本处理能力

通义千问长文本版本(Qwen-Long)是阿里云推出的专门用于处理长文本的大语言模型，具有以下特点：

超长上下文支持
- 支持高达100万token的上下文长度
- 可以同时处理多个完整的研究报告
- 保持长文本的连贯性理解
多文档并行处理
- 支持多个PDF文件的同时分析
- 能够综合多份报告的信息
- 提供跨文档的关联分析
专业领域适应
- 对金融研报格式有良好的理解
- 能准确提取报告中的关键数据
- 支持专业术语和行业分析
智能分析能力
- 提供深度的内容理解和总结
- 支持多角度的对比分析
- 能够提炼出有价值的投资见解

这些特性使得Qwen-Long特别适合处理金融研究报告这类专业性强、篇幅长的文档，能够帮助分析师快速获取和理解大量研报信息。

2. 基础功能实现

2.1 文件上传

首先，我们需要实现PDF文件的上传功能。以下代码展示了如何上传单个PDF文件：

import os
from pathlib import Path
from openai import OpenAI

client = OpenAI(
    api_key=os.getenv("DASHSCOPE_API_KEY"),
    base_url="https://dashscope.aliyuncs.com/compatible-mode/v1",
)

file_object = client.files.create(file=Path("百炼系列手机产品介绍.docx"), purpose="file-extract")
print(file_object.id)

2.2 单文件分析

上传文件后，我们可以让模型分析单个文件的内容。这里使用流式返回，可以实时获取模型的分析结果：

completion = client.chat.completions.create(
    model="qwen-long",
    messages=[
        {
   
   'role': 'system', 'content': 'You are a helpful assistant.'},
        {
   
   'role': 'system', 'content': 'fileid://file-fe-xxx'},
        {
   
   'role': 'user', 'content': '这篇文章讲了什么？'}
    ],
    stream=True,
    stream_options=