Datawhale AI夏令营第四期:动手学大模型应用全栈开发

task01

主要记录自己跟着Datawhale参考教程跑baseline的过程,也是参加Datawhale AI夏令营第四期:动手学大模型应用全栈开发的学习记录

参考教程:Datawhale

下文引用自Datawhale参考教程

一、环境配置

去到PAI-DSW创建一个PAI实例并打开:

1.开通阿里云PAI-DSW使用

首先我们配置环境,这里使用阿里云的PAI-DSW服务,可以申请试用,可获得 5000算力时!有效期3个月!开通方法在参考教程中有Datawhale


链接:https://free.aliyun.com/?productCode=learn


2.在魔搭社区进行授权

3.在魔搭社区创建PAI实例

链接:https://www.modelscope.cn/my/mynotebook/authorization

二、Demo搭建

第一步:文件下载

点击终端,然后输入如下命令,回车运行!

git lfs install git clone https://www.modelscope.cn/datasets/Datawhale/AICamp_yuan_baseline.git

第二步:环境安装

点击终端,然后输入如下命令,回车运行!

pip install streamlit==1.24.0

第三步:启动Demo

点击终端,然后输入如下命令,回车运行!

streamlit run AICamp_yuan_baseline/Task\ 1:零基础玩转源大模型/web_demo_2b.py --server.address 127.0.0.1 --server.port 6006

三、对话体验

点击链接,跳转到浏览器新页面!

下面,让你的编程助手简单写个代码吧!输入后回车即可运行!

参考Prompt:

给我一个python打印helloword的代码

改成c++的

task02

这次主要开展了线上头脑风暴会议,了解了许多模型的潜在应用场景和价值。思维、idea的碰撞,相当精彩!

以下是DataWhale相关教程给出的推荐:Datawhaleicon-default.png?t=N7T8https://linklearner.com/activity/14/11/30

1.文档处理类应用

项目背景

在信息时代,文档处理是日常工作和学术研究中不可或缺的一部分。然而,传统的文档处理方式往往效率低下,且难以满足个性化和智能化的需求。AI技术的引入,特别是Yuan2.0-2B-Mars大模型,为文档处理提供了新的解决方案。

预期产品功能

  1. 多格式文档读取:支持PDF、DOC、MD、TEX等多种文档格式的读取。

  2. 信息提取:能够从文档中提取关键信息,如文本、图表、公式等。

  3. 信息再处理:根据用户需求对提取的信息进行进一步的处理,如格式化、摘要生成等。

  4. 自然语言与写作语法转换:对于MD、TEX文件,支持自然语言和写作语法的相互转换,方便用户编辑和使用。

参考技术方案

  • 前端技术:使用Gradio快速开发,提供动态和响应式的用户界面。

  • 后端技术:采用Python 直接开发接口,处理文档读取、信息提取和转换等逻辑。

  • 文档解析引擎:开发或集成强大的文档解析引擎,以支持多种格式的文档读取。

  • 信息提取算法:利用NLP技术提取文档中的关键信息。

  • 自然语言处理(NLP):使用Yuan2.0-2B-Mars模型的NLP能力进行自然语言理解和生成。

  • 机器学习和深度学习:应用机器学习算法优化信息提取和处理的准确性。

预期运行效果

  • 高兼容性:能够读取和处理多种格式的文档。

  • 高准确性:提取的信息准确无误,满足用户需求。

  • 高效率:快速完成文档的读取和信息提取。

  • 用户友好:提供直观的用户界面,简化操作流程。

预期应用价值

  1. 提高工作效率:帮助用户快速处理大量文档,节省时间。

  2. 促进知识管理:通过信息提取和再处理,更好地管理和利用知识。

  3. 支持学术研究:为研究人员提供文档处理的辅助工具,加速研究进程。

  4. 个性化服务:根据用户的个性化需求提供定制化的文档处理服务。

2.领域知识类应用

项目背景

当前,随着人工智能技术的快速发展,越来越多的行业开始寻求AI解决方案以提高效率和准确性。特别是在法律、医学、金融和教育领域,专业知识的深度和广度要求极高,传统的搜索引擎和问答系统往往难以满足专业人士的需求。Yuan2.0-2B-Mars大模型提供了强大的语言理解和生成能力,为开发领域知识类AI原生应用提供了基础。

预期产品功能

  1. 领域专精问答:系统能够理解并回答 法律/医学/金融/初高中学科 等专业领域的问题。

  2. 内容完整性与逻辑自洽:确保回答内容不仅准确,而且完整、逻辑清晰。

  3. 参考文献引用:为每个回答提供相关的参考文献篇名和链接,增加回答的权威性。

  4. 问题领域判断:自动识别问题是否属于专精领域,并据此调整回答策略。

参考技术方案

  • 前端技术:使用Gradio快速开发,提供动态和响应式的用户界面。

  • 后端技术:采用Python 直接开发接口,处理文档读取、信息提取和转换等逻辑。

  • 自然语言处理(NLP):利用Yuan2.0-2B-Mars模型的NLP能力进行语言理解与生成。

  • 知识图谱构建:构建各专业领域的知识图谱,以支持深度问答。

  • 机器学习:通过机器学习算法不断优化问答模型,提高准确性和响应速度。

  • API集成:集成外部数据库和API,如法律数据库、医学研究论文库等,以提供最新的领域信息。

  • 视情况微调

预期运行效果

  • 高准确率:确保在专业领域内提供高准确率的答案。

  • 快速响应:快速处理用户查询,提供即时反馈。

  • 用户友好:界面简洁,易于专业人士使用。

  • 持续学习:系统能够根据用户反馈和新数据不断学习和进化。

预期应用价值

  1. 提高决策效率:专业人士可以通过系统快速获取准确信息,辅助决策。

  2. 教育辅助:为学生和教师提供即时的学科知识查询服务,增强学习体验。

  3. 知识普及:帮助非专业人士理解复杂概念,促进知识的普及。

  4. 研究支持:为研究人员提供深入的文献资料,加速研究进程。

3.数据分析类应用

项目背景

在数据驱动的商业环境中,数据分析已成为决策过程中的关键步骤。企业和研究人员需要从大量数据中提取有价值的信息,进行深入分析以指导决策。Yuan2.0-2B-Mars大模型提供了处理和分析数据的能力,使得开发一个高效的数据分析应用成为可能。

预期产品功能

  1. 多格式数据读取:支持读取XLS、CSV、JSON、SQL、HDF5等多种数据文件。

  2. 数据对象提取:从各种数据文件中提取数据对象,如表格、记录、数组等。

  3. 数据归纳与检索:对提取的数据进行归纳、分类和检索,以便于分析和使用。

  4. 数据计算与分析:根据需求对数据进行计算和分析,提供统计摘要、趋势预测等。

  5. 图表输出:对于CSV、XLS数据,支持生成图表,直观展示数据。

  6. 数据格式转换:支持将文本格式信息转化为JSON格式数据,以便于数据交换和处理。

参考技术方案

  • 前端技术:使用Gradio快速开发,提供动态和响应式的用户界面。

  • 后端技术:采用Python 直接开发接口,处理文档读取、信息提取和转换等逻辑。

  • 数据解析引擎:开发或集成数据解析引擎,以支持多种格式的数据文件读取。

  • 数据仓库技术:使用数据仓库技术存储和管理大量数据。

  • 数据分析工具:集成数据分析工具,如统计分析、机器学习模型等。

  • 可视化技术:应用可视化技术生成图表,帮助用户直观理解数据。

  • API集成:集成外部API,如数据库查询API、数据转换API等。

预期运行效果

  • 高兼容性:能够读取和处理多种格式的数据文件。

  • 高效率:快速完成数据的读取、提取和分析。

  • 高准确性:确保数据分析结果的准确性和可靠性。

  • 用户友好:提供直观的用户界面和交互方式,简化数据分析流程。

预期应用价值

  1. 提高决策质量:通过深入的数据分析帮助用户做出更明智的决策。

  2. 优化业务流程:分析业务数据,发现流程中的瓶颈和改进点。

  3. 增强竞争力:利用数据分析结果优化产品和服务,提高市场竞争力。

  4. 促进科研发展:为科研人员提供强大的数据分析工具,加速研究进程。

4.编程助手类应用

项目背景

编程是一项需要高度专业知识和技能的工作。随着技术的发展,编程语言和框架不断更新,开发者需要一个能够提供即时帮助和指导的工具。Yuan2.0-2B-Mars大模型具备处理和生成代码的能力,为开发编程助手类应用提供了强大的基础。

预期产品功能

  1. 多语言支持:支持Python、C/C++、Java、Javascript等多种编程语言的代码输出。

  2. 代码解释:为输入的代码提供详细的解释和文档,帮助理解代码逻辑和功能。

  3. 逐步代码输出:根据用户的学习进度和需求,逐步展示代码,便于学习和理解。

  4. 代码编辑器:内置代码编辑器,支持代码编写、格式化和实时预览。(可直接作为vs code 插件开发)

  5. 编译器集成:集成编译器,支持代码的编译和运行,即时反馈结果。

参考技术方案

  • 前端技术:使用Gradio快速开发,提供动态和响应式的用户界面。

  • 后端技术:采用Python 直接开发接口,处理文档读取、信息提取和转换等逻辑。

  • 代码生成算法:利用Yuan2.0-2B-Mars模型生成特定编程语言的代码。

  • 代码解释引擎:开发代码解释引擎,提供代码的详细解释和文档。

  • 代码编辑器技术:集成或开发代码编辑器,支持语法高亮、代码补全等功能。(可直接作为vs code 插件开发)

  • 编译器接口:与现有编译器进行接口集成,实现代码的编译和运行。

  • 机器学习和深度学习:应用机器学习算法优化代码生成和解释的准确性。

预期运行效果

  • 高兼容性:支持多种编程语言,满足不同开发者的需求。

  • 高准确性:代码解释准确,帮助用户深入理解代码。

  • 高效率:内置编辑器和编译器,提高编程效率。

  • 用户友好:提供简洁直观的用户界面,简化编程流程。

预期应用价值

  1. 提升编程效率:帮助开发者快速编写和理解代码,提升编程效率。

  2. 降低学习门槛:通过逐步代码输出和详细解释,降低编程语言的学习门槛。

  3. 促进技术交流:提供代码共享和讨论的平台,促进技术交流和知识传播。

  4. 支持教育和培训:作为编程教育和培训的工具,帮助学生和新手快速掌握编程技能。

因为本文主要是本人用来做的笔记(内容都在上面给的Datawhale教程里有),顺便进行知识巩固。如果本文对你有所帮助,那么本博客的目的就已经超额完成了。
本人英语水平、阅读论文能力、读写代码能力较为有限。有错误,恳请大佬指正,感谢。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值