Datawhale AI夏令营第四期：动手学大模型应用全栈开发

2401_82587829

已于 2024-08-14 13:23:26 修改

阅读量376

点赞数 6

文章标签：人工智能

于 2024-08-08 17:00:48 首次发布

本文链接：https://blog.csdn.net/2401_82587829/article/details/141030598

版权

task01

主要记录自己跟着Datawhale参考教程跑baseline的过程，也是参加Datawhale AI夏令营第四期：动手学大模型应用全栈开发的学习记录

参考教程：Datawhale

下文引用自Datawhale参考教程

一、环境配置

去到PAI-DSW创建一个PAI实例并打开：

1.开通阿里云PAI-DSW使用

首先我们配置环境，这里使用阿里云的PAI-DSW服务，可以申请试用，可获得 5000算力时！有效期3个月！开通方法在参考教程中有Datawhale。

链接:https://free.aliyun.com/?productCode=learn

2.在魔搭社区进行授权

3.在魔搭社区创建PAI实例

链接：https://www.modelscope.cn/my/mynotebook/authorization

二、Demo搭建

第一步：文件下载

点击终端，然后输入如下命令，回车运行！

git lfs install git clone https://www.modelscope.cn/datasets/Datawhale/AICamp_yuan_baseline.git

第二步：环境安装

点击终端，然后输入如下命令，回车运行！

pip install streamlit==1.24.0

第三步：启动Demo

点击终端，然后输入如下命令，回车运行！

streamlit run AICamp_yuan_baseline/Task\ 1：零基础玩转源大模型/web_demo_2b.py --server.address 127.0.0.1 --server.port 6006

三、对话体验

点击链接，跳转到浏览器新页面！

下面，让你的编程助手简单写个代码吧！输入后回车即可运行！

参考Prompt：

给我一个python打印helloword的代码

改成c++的

task02

这次主要开展了线上头脑风暴会议，了解了许多模型的潜在应用场景和价值。思维、idea的碰撞，相当精彩！

以下是DataWhale相关教程给出的推荐：Datawhalehttps://linklearner.com/activity/14/11/30

1.文档处理类应用
项目背景	在信息时代，文档处理是日常工作和学术研究中不可或缺的一部分。然而，传统的文档处理方式往往效率低下，且难以满足个性化和智能化的需求。AI技术的引入，特别是Yuan2.0-2B-Mars大模型，为文档处理提供了新的解决方案。
预期产品功能	多格式文档读取：支持PDF、DOC、MD、TEX等多种文档格式的读取。信息提取：能够从文档中提取关键信息，如文本、图表、公式等。信息再处理：根据用户需求对提取的信息进行进一步的处理，如格式化、摘要生成等。自然语言与写作语法转换：对于MD、TEX文件，支持自然语言和写作语法的相互转换，方便用户编辑和使用。
参考技术方案	前端技术：使用Gradio快速开发，提供动态和响应式的用户界面。后端技术：采用Python 直接开发接口，处理文档读取、信息提取和转换等逻辑。文档解析引擎：开发或集成强大的文档解析引擎，以支持多种格式的文档读取。信息提取算法：利用NLP技术提取文档中的关键信息。自然语言处理（NLP）：使用Yuan2.0-2B-Mars模型的NLP能力进行自然语言理解和生成。机器学习和深度学习：应用机器学习算法优化信息提取和处理的准确性。
预期运行效果	高兼容性：能够读取和处理多种格式的文档。高准确性：提取的信息准确无误，满足用户需求。高效率：快速完成文档的读取和信息提取。用户友好：提供直观的用户界面，简化操作流程。
预期应用价值	提高工作效率：帮助用户快速处理大量文档，节省时间。促进知识管理：通过信息提取和再处理，更好地管理和利用知识。支持学术研究：为研究人员提供文档处理的辅助工具，加速研究进程。个性化服务：根据用户的个性化需求提供定制化的文档处理服务。

2.领域知识类应用
项目背景	当前，随着人工智能技术的快速发展，越来越多的行业开始寻求AI解决方案以提高效率和准确性。特别是在法律、医学、金融和教育领域，专业知识的深度和广度要求极高，传统的搜索引擎和问答系统往往难以满足专业人士的需求。Yuan2.0-2B-Mars大模型提供了强大的语言理解和生成能力，为开发领域知识类AI原生应用提供了基础。
预期产品功能	领域专精问答：系统能够理解并回答法律/医学/金融/初高中学科等专业领域的问题。内容完整性与逻辑自洽：确保回答内容不仅准确，而且完整、逻辑清晰。参考文献引用：为每个回答提供相关的参考文献篇名和链接，增加回答的权威性。问题领域判断：自动识别问题是否属于专精领域，并据此调整回答策略。
参考技术方案	前端技术：使用Gradio快速开发，提供动态和响应式的用户界面。后端技术：采用Python 直接开发接口，处理文档读取、信息提取和转换等逻辑。自然语言处理（NLP）：利用Yuan2.0-2B-Mars模型的NLP能力进行语言理解与生成。知识图谱构建：构建各专业领域的知识图谱，以支持深度问答。机器学习：通过机器学习算法不断优化问答模型，提高准确性和响应速度。 API集成：集成外部数据库和API，如法律数据库、医学研究论文库等，以提供最新的领域信息。视情况微调
预期运行效果	高准确率：确保在专业领域内提供高准确率的答案。快速响应：快速处理用户查询，提供即时反馈。用户友好：界面简洁，易于专业人士使用。持续学习：系统能够根据用户反馈和新数据不断学习和进化。
预期应用价值	提高决策效率：专业人士可以通过系统快速获取准确信息，辅助决策。教育辅助：为学生和教师提供即时的学科知识查询服务，增强学习体验。知识普及：帮助非专业人士理解复杂概念，促进知识的普及。研究支持：为研究人员提供深入的文献资料，加速研究进程。

3.数据分析类应用
项目背景	在数据驱动的商业环境中，数据分析已成为决策过程中的关键步骤。企业和研究人员需要从大量数据中提取有价值的信息，进行深入分析以指导决策。Yuan2.0-2B-Mars大模型提供了处理和分析数据的能力，使得开发一个高效的数据分析应用成为可能。
预期产品功能	多格式数据读取：支持读取XLS、CSV、JSON、SQL、HDF5等多种数据文件。数据对象提取：从各种数据文件中提取数据对象，如表格、记录、数组等。数据归纳与检索：对提取的数据进行归纳、分类和检索，以便于分析和使用。数据计算与分析：根据需求对数据进行计算和分析，提供统计摘要、趋势预测等。图表输出：对于CSV、XLS数据，支持生成图表，直观展示数据。数据格式转换：支持将文本格式信息转化为JSON格式数据，以便于数据交换和处理。
参考技术方案	前端技术：使用Gradio快速开发，提供动态和响应式的用户界面。后端技术：采用Python 直接开发接口，处理文档读取、信息提取和转换等逻辑。数据解析引擎：开发或集成数据解析引擎，以支持多种格式的数据文件读取。数据仓库技术：使用数据仓库技术存储和管理大量数据。数据分析工具：集成数据分析工具，如统计分析、机器学习模型等。可视化技术：应用可视化技术生成图表，帮助用户直观理解数据。 API集成：集成外部API，如数据库查询API、数据转换API等。
预期运行效果	高兼容性：能够读取和处理多种格式的数据文件。高效率：快速完成数据的读取、提取和分析。高准确性：确保数据分析结果的准确性和可靠性。用户友好：提供直观的用户界面和交互方式，简化数据分析流程。
预期应用价值	提高决策质量：通过深入的数据分析帮助用户做出更明智的决策。优化业务流程：分析业务数据，发现流程中的瓶颈和改进点。增强竞争力：利用数据分析结果优化产品和服务，提高市场竞争力。促进科研发展：为科研人员提供强大的数据分析工具，加速研究进程。

4.编程助手类应用
项目背景	编程是一项需要高度专业知识和技能的工作。随着技术的发展，编程语言和框架不断更新，开发者需要一个能够提供即时帮助和指导的工具。Yuan2.0-2B-Mars大模型具备处理和生成代码的能力，为开发编程助手类应用提供了强大的基础。
预期产品功能	多语言支持：支持Python、C/C++、Java、Javascript等多种编程语言的代码输出。代码解释：为输入的代码提供详细的解释和文档，帮助理解代码逻辑和功能。逐步代码输出：根据用户的学习进度和需求，逐步展示代码，便于学习和理解。代码编辑器：内置代码编辑器，支持代码编写、格式化和实时预览。（可直接作为vs code 插件开发）编译器集成：集成编译器，支持代码的编译和运行，即时反馈结果。
参考技术方案	前端技术：使用Gradio快速开发，提供动态和响应式的用户界面。后端技术：采用Python 直接开发接口，处理文档读取、信息提取和转换等逻辑。代码生成算法：利用Yuan2.0-2B-Mars模型生成特定编程语言的代码。代码解释引擎：开发代码解释引擎，提供代码的详细解释和文档。代码编辑器技术：集成或开发代码编辑器，支持语法高亮、代码补全等功能。（可直接作为vs code 插件开发）编译器接口：与现有编译器进行接口集成，实现代码的编译和运行。机器学习和深度学习：应用机器学习算法优化代码生成和解释的准确性。
预期运行效果	高兼容性：支持多种编程语言，满足不同开发者的需求。高准确性：代码解释准确，帮助用户深入理解代码。高效率：内置编辑器和编译器，提高编程效率。用户友好：提供简洁直观的用户界面，简化编程流程。
预期应用价值	提升编程效率：帮助开发者快速编写和理解代码，提升编程效率。降低学习门槛：通过逐步代码输出和详细解释，降低编程语言的学习门槛。促进技术交流：提供代码共享和讨论的平台，促进技术交流和知识传播。支持教育和培训：作为编程教育和培训的工具，帮助学生和新手快速掌握编程技能。

因为本文主要是本人用来做的笔记(内容都在上面给的Datawhale教程里有)，顺便进行知识巩固。如果本文对你有所帮助，那么本博客的目的就已经超额完成了。
本人英语水平、阅读论文能力、读写代码能力较为有限。有错误，恳请大佬指正，感谢。

2401_82587829

关注

6
点赞
踩
7

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

Datawhale AI夏令营第四期：动手学大模型应用全栈开发

task01

一、环境配置

1.开通阿里云PAI-DSW使用

2.在魔搭社区进行授权

3.在魔搭社区创建PAI实例

二、Demo搭建

第一步：文件下载

第二步：环境安装

第三步：启动Demo

三、对话体验

task02

1.文档处理类应用

2.领域知识类应用

3.数据分析类应用

4.编程助手类应用