大模型RAG:大模型如何利用长上下文打造前沿RAGLLMs(二)智谱GLM Long应用实战

智谱GLM Long应用实战

100万上下文长文本模型GLM-4-Long来了。这为将 RAG 系统与长上下文 LLMs 的集成提供了一个有前景的方向。

100万的上下文,大约相当2本红楼梦或者125篇科研论文的长度,极大的提高了模型的上下文理解能力,丰富了大模型应用落地能力。

GLM-4-Long模型属于GLM-4系列通用大模型,专为处理超长文本和记忆型任务设计。本文档将向你介绍智谱BigModel开放平台最新的长文本模型GLM-4-Long,并会带您一起了解如何使用最新的GLM-4-Long模型为您的生活和工作提高效率


该内容演示了 GLM-4-Long 如何通过将讲座笔录转换为笔记格式的任务来处理长文本。在日常生活中,我们经常会遇到需要阅读长篇文章的情况,这可能会很耗时。例如,翘掉课程或临近截止日期的学生可能需要快速掌握长篇文章的要点。在这种情况下,对讲座笔录等长篇文章进行总结就非常有用。

首先,设置环境变量并初始化 ZhipuAI client。

import os
from zhipuai import ZhipuAI

os.environ["ZHIPUAI_API_KEY"] = "your api key"
client = ZhipuAI()

然后,打开我们的讲座笔录文件,指定其字数。

lecture_transcript_path = "data/lecture_transcript.txt"

with open(lecture_transcript_path, "r") as file:
    lecture_text = file.read()

WORD_COUNT = 20899

现在,安装 NLP 库 spaCy,并加载 en_core_web_sm 模型,这是一个用于预处理文件的小型英语模型。然后,我们准备了两个方法将文件分成句子存入列表中,再将句子组织成具有指定最大长度(即总字数的五十分之一)的句块。

import spacy

nlp = spacy.load("en_core_web_sm")

def preprocess_text(text):
    doc = nlp(text)
    sentences = [sent.text for sent in doc.sents]
    return sentences

def chunk_text(sentences, max_chunk_size=WORD_COUNT/50):
    chunks = []
    current_chunk = []
    current_length = 0

    for sentence in sentences:
        sentence_length = len(sentence.split())
        if current_length + sentence_length > max_chunk_size:
            chunks.append(" ".join(current_chunk))
            current_chunk = []
            current_length = 0
        current_chunk.append(sentence)
        current_length += sentence_length

    if current_chunk:
        chunks.append(" ".join(current_chunk))

    return chunks

以两轮的形式,我们用GLM-4-Long模型把讲座笔录先概括成笔记的形式,这样可以避免一次性概括造成的信息损失。这两轮的处理的概括程度是由“概括比例”来决定的,我们可以自行决定输出的笔记字数与原始文本之间0到1的比例。我在这里两轮用的都是0.2的比例,也就是输入1000字的讲座笔录得到200字的笔记。

def summarize_chunk(chunk, summary_ratio):
    response = client.chat.completions.create(
            model="glm-4-long",
            messages=[
                {
                    "role": "system",
                    "content": f"You are an assistant that reads a long lecture transcript and summarizes it to a short and concise note-taking format. The summary should be around {summary_ratio*100}% of the original length."
                },
                {
                    "role": "user",
                    "content": chunk
                },
            ],
            top_p=0.7,
            temperature=0.9
        )
    summarized_text = response.choices[0].message.content
    return summarized_text

def summarize_text(text, summary_ratio):
    sentences = preprocess_text(text)

    max_chunk_size = int(WORD_COUNT / 50)
    chunks = chunk_text(sentences, max_chunk_size)

    summarized_chunks = []
    for chunk in chunks:
        summarized_chunk = summarize_chunk(chunk, summary_ratio)
        if summarized_chunk:
            summarized_chunks.append(summarized_chunk)

    summarized_text = " ".join(summarized_chunks)

    return summarized_text

first_summary_ratio = 0.2
first_summarized_text = summarize_text(lecture_text, first_summary_ratio)

second_summary_ratio = 0.2
final_summarized_text = summarize_text(first_summarized_text, second_summary_ratio)

最后,再次让模型把讲座的笔记形式保存为markdown格式,得到清晰的格式化的笔记,保存到本地以便我们快速阅读。

markdown_notes = client.chat.completions.create(
            model="glm-4-long",
            messages=[
                {
                    "role": "system",
                    "content": "Convert the summary to markdown format. Organize information into headings and subheadings, with no big paragraphs and no more than 5 bullet points under a subheading.",
                },
                {
                    "role": "user",
                    "content": final_summarized_text,
                }
            ],
            top_p=0.7,
            temperature=0.9
        )

with open("data/summarized_notes.md", "w") as file:
    file.write(markdown_notes.choices[0].message.content)

最后分享

AI大模型作为人工智能领域的重要技术突破,正成为推动各行各业创新和转型的关键力量。抓住AI大模型的风口,掌握AI大模型的知识和技能将变得越来越重要。

学习AI大模型是一个系统的过程,需要从基础开始,逐步深入到更高级的技术。

这里给大家精心整理了一份全面的AI大模型学习资源,包括:AI大模型全套学习路线图(从入门到实战)、精品AI大模型学习书籍手册、视频教程、实战学习、面试题等,资料免费分享!

在这里插入图片描述

1. 成长路线图&学习规划

要学习一门新的技术,作为新手一定要先学习成长路线图方向不对,努力白费

这里,我们为新手和想要进一步提升的专业人士准备了一份详细的学习成长路线图和规划。可以说是最科学最系统的学习成长路线。
在这里插入图片描述

2. 大模型经典PDF书籍

书籍和学习文档资料是学习大模型过程中必不可少的,我们精选了一系列深入探讨大模型技术的书籍和学习文档,它们由领域内的顶尖专家撰写,内容全面、深入、详尽,为你学习大模型提供坚实的理论基础。(书籍含电子版PDF)

在这里插入图片描述

3. 大模型视频教程

对于很多自学或者没有基础的同学来说,书籍这些纯文字类的学习教材会觉得比较晦涩难以理解,因此,我们提供了丰富的大模型视频教程,以动态、形象的方式展示技术概念,帮助你更快、更轻松地掌握核心知识

在这里插入图片描述

4. 大模型项目实战

学以致用 ,当你的理论知识积累到一定程度,就需要通过项目实战,在实际操作中检验和巩固你所学到的知识,同时为你找工作和职业发展打下坚实的基础。

在这里插入图片描述

5. 大模型面试题

面试,不仅是技术的较量,更需要充分的准备。在你已经掌握了大模型技术之后,就需要开始准备面试,我们将提供精心整理的大模型面试题库,涵盖当前面试中可能遇到的各种技术问题,让你在面试中游刃有余。

在这里插入图片描述

全套的AI大模型学习资源已经整理打包,有需要的小伙伴可以微信扫描下方CSDN官方认证二维码,免费领取【保证100%免费

在这里插入图片描述
如有侵权,请联系删除。

  • 5
    点赞
  • 5
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值