一大口圆-CSDN博客

原创【山东大学项目实训】进度汇报16

初始化类的各种参数，包括模型名称、温度、检索文档数量、历史记录、文件路径、向量数据库路径、API 密钥、embedding 模型及其密钥。- `Chat_QA_chain_self`：这是一个自定义的问答链类，包含了与模型交互、历史记录管理、向量检索等功能。- 调整历史记录的长度，仅保留最近的 `history_len` 次对话。- `get_vectordb`：获取向量数据库实例，用于检索相似文档。- `model_to_llm`：将模型名称转换为具体的语言模型实例。- 清空当前的聊天历史记录。

2024-06-24 12:24:43 290

原创【山东大学项目实训】进度汇报15

【代码】【山东大学项目实训】进度汇报15。

2024-06-23 09:30:33 305

原创【山东大学项目实训】进度汇报14

根据指定的模型名称、温度参数和API密钥创建并返回一个智谱AI的LLM对象，便于在后续的应用中使用该模型进行文本生成、回答问题等任务。：函数内部验证了提供的模型名称是否受支持，确保只使用有效的模型，避免由于无效模型名称导致的错误。初始化LLM的修改，增添glm-4v和glm-3-turbo的接入，获取默认的API密钥，简化了用户的操作。：如果未提供API密钥，函数会自动调用。

2024-06-23 09:17:47 281

原创【山东大学项目实训】进度汇报13

根据给定的嵌入模型类型和API密钥获取嵌入对象，并使用该对象创建和加载向量数据库。确保向量数据库文件的存储路径和持久化路径的有效性，避免重复创建数据库。将指定路径的知识库数据加载到向量数据库中，方便后续的数据检索和使用。

2024-06-23 09:10:19 286

原创【山东大学项目实训】进度汇报12

因此，定义一个最直观的准确率在评估检索效果：对于 N 个给定 query，我们保证每一个 query 对应的正确答案都存在于知识库中。RAG 系统针对用户输入的一个 query，系统会将其转化为向量并在向量数据库中匹配最相关的文本段，然后根据设定选择 3～5 个文本段落和用户的 query 一起交给大模型，再由大模型根据检索到的文本段落回答用户 query 中提出的问题。在这一整个系统中，将向量数据库检索相关文本段落的部分称为检索部分，将大模型根据检索到的文本段落进行答案生成的部分称为生成部分。

2024-06-21 19:48:22 390

原创【山东大学项目实训】进度汇报11

在使用大型语言模型时，构造Prompt的原则主要包括编写清晰、具体的指令和给予模型充足的思考时间。其次，给予语言模型充足的推理时间也是至关重要的。因此，在设计Prompt时，应该加入逐步推理的要求，让模型有足够的时间进行逻辑思考，从而提高结果的准确性和可靠性。而具体到生成部分，在已限定使用的大模型基座的情况下，通过优化 Prompt Engineering 来优化生成的回答。总之，构造Prompt的原则包括清晰具体的指令、给予模型充足思考时间、指定完成任务所需的步骤、迭代优化和添加表格描述等。

2024-06-21 12:25:37 557

原创【山东大学项目实训】第十周进度汇报

5.结合了股票预测功能的具体实现，包括获取用户输入、生成提示信息、调用模型并展示结果，更新了prompt。4.增加了两个关于股票未来走势预测的例子，展示如何根据公司公告和技术分析来预测股票的未来走向。2.同时增加了一个例子来展示如何处理更多样的问题和文本。1.增加了额外的工作流程以确保模型能够更全面的分析。3.对初始化部分进行了调整，使其更加友好和明确。针对新增功能进行prompt修改迭代。

2024-06-21 12:04:13 241

原创【山东大学项目实训】第九周进度汇报

进行了glm-4v，glm-3-Turbo模型的接入，增添了与大模型对话的模型选择。

2024-06-21 11:11:46 177

原创【山东大学项目实训】第八周进度汇报

"spark_url": spark_url_tpl.format("v1.1") # 云端环境的服务地址。"spark_url": spark_url_tpl.format("v2.1") # 云端环境的服务地址。"spark_url": spark_url_tpl.format("v3.1") # 云端环境的服务地址。"spark_url": spark_url_tpl.format("v3.5") # 云端环境的服务地址。"domain": "generalv3.5", # 用于配置大模型版本。

2024-05-31 19:38:48 1889

原创知识库功能的前后端

本功能支持用户上传一个文件，然后输入与该文件相关的问题，系统会给出相应的回答。如果用户不上传文件，直接询问问题，便会根据我们已有的数据库和问题给出对应的答案。同时，询问问题可以选择是否要携带自己的历史记录。我们也提供了一个接口，供用户与在线的智谱ai进行对话。实现过程### get_vectordb函数主要功能是根据指定的参数获取或创建一个向量数据库对象。向量数据库对象用于存储和查询文本嵌入（向量化的文本数据）。

2024-05-30 21:21:48 491

原创输入股票生成研报

前端需要用户键盘输入一个股票代码，在前端进行格式判断，如果输入不是一个正确的股票代码，就显示没有这种次股票代码，如果代码正确，就可以转给后端，进行研报的生成。研报以一个pdf的形式传到前端，在页面对这个pdf进行预览并且提供下载功能。

2024-05-30 21:19:03 312

原创前端完整实现

主界面基于Vue3的框架实现，主界面主要分为Header和主体两部分，每个功能做成一个“Basecard”模块，后续增删功能时便于修改由于在这里我们要实现一个交互式的界面，用Gradio编写更加简便，所以我选择通过router路由直接去访问编写好的Gradio页面1.create_db_info: 用于初始化知识库文件向量化。2.chat_qa_chain_self_answer: 带历史记录的问答链进行回答。3.qa_chain_self_answer: 不带历史记录的问答链进行回答。

2024-05-30 19:57:56 556

原创阶段性总结

关键点一项目利用Langchain中的文本切割器完成知识库向量化操作前的文本分割，向量数据库使用高效的索引和查询算法来加速向量数据的存储和检索过程，快速的完成个人知识库数据建立与使用。关键点二项目对API进行了底层封装，用户可以避免复杂的封装细节，直接调用相应的大语言模型即可。关键点三项目对市场上稀缺的金融大模型进行研究开发，旨在服务金融爱好者和金融行业工作者日常研投、工作和金融资讯获取。

2024-05-30 19:17:59 807

原创 prompt

和。掌握这两点，对创建可靠的语言模型交互尤为重要。

2024-05-30 18:52:38 570

原创 4.应用层

我们基于 LangChain 提供的检索问答链，在 LLM 层、数据库层的基础上，实现了本项目检索问答链的封装。print(f"检索到的第{i}个内容: \n {doc.page_content}", end="\n-----------------------------------------------------\n")关于更多的 Memory 的使用，包括保留指定对话轮数、保存指定 token 数量、保存历史对话的总结摘要等内容，请参考 langchain 的 Memory 部分的相关文档。

2024-05-30 18:49:34 846

原创 3.数据库层

数据库层主要存放了向量数据库文件。同时，我们在该层实现了源数据处理、创建向量数据库的方法。

2024-05-30 18:42:05 938

原创 2.数据层

【代码】2.数据层。

2024-05-30 18:07:29 365

原创 1.LLM层

ChatGLM 系列模型，包括 ChatGLM-130B、ChatGLM-6B 和 ChatGLM2-6B（ChatGLM-6B 的升级版本）模型，支持相对复杂的自然语言指令，并且能够解决困难的推理类问题。其中，ChatGLM-6B 模型来自 Huggingface 上的下载量已经超过 300w（截至 2023 年 6 月 24 日统计数据），该模型在 Hugging Face (HF) 全球大模型下载榜中连续 12 天位居第一名，在国内外的开源社区中产生了较大的影响。值越大，会使输出更随机，更具创造性；

2024-05-30 18:04:49 1639