Datawhale AI夏令营 第四期大模型应用开发 0811直播分享

大模型项目分类和原理解析

分类标准:是否需要微调模型、是否需要训练embedding模型、是否需要优化prompt等技术指标

小白可以做的LLM相关事情

Prompt项目

 方式1 修改Prompt项目达成需求

意译文章,生成要求风格的文案

 方式2 Prompt项目结合开发

ChatPaper

利用chatgpt进行论文全文总结--专业翻译--润色--审稿--审稿回复

GitHub - kaixindelele/ChatPaper: Use ChatGPT to summarize the arXiv papers. 全流程加速科研,利用chatgpt进行论文全文总结+专业翻译+润色+审稿+审稿回复

ChatBI/ChatExcel

思路1:用户上传文件存入db,输入text生成sql语句

思路2:用户输入的text直接转化成操作表格的代码文件

相似开源项目

GitHub - eosphoros-ai/DB-GPT-Hub: A repository that contains models, datasets, and fine-tuning techniques for DB-GPT, with the purpose of enhancing model performance in Text-to-SQL

 流程

  • 将Excel作为一个数据源上传到DB-GPT当中。

  • DB-GPT通过Excel Python支持特性将Excel表格数据转换为数据库表格,可以利用DB-GPT中的通用能力。

  • 用户发起对话,通过对话进行Excel数据分析。

  • 根据DB-GPT中ChatExcel场景逻辑,调用大模型生成对应的Text2SQL语句。

  • 利用执行插件能力,执行具体结果。

  • 收集数据绘制图表。

  • 返回最终结果。

ChatPPT

PPT是一种文件格式 GitHub - PandaVT/AI_PPT_demo: This repo is built for showing how to generate PPT use python

如果要处理的数据很多,超过token限制应该怎么办

方式1:长文本裁剪,分段总结汇总

方式2:Embedding ——将文本、图像等人类世界的高维信息转换为低维向量,同时保留不错的语义信息,便于进行数学运算和相似度比较。

练手demo

GitHub - JessyTsui/awesome_LLM_beginner: 送给LLM初学者的路径,看我心情和时间更新

(faiss:Facebook开源出的一个向量检索引擎)

Embedding问题——转换到哪个向量空间(相似文本用相似的向量空间表示)

对于专业领域,最好训练自己的embedding模型

通用模型解决不了的问题怎么办

ChatLaw

数据集

PandaVT/chinese_verdict_examples · Datasets at HF Mirror

PandaVT/chinese_law_examples · Datasets at HF Mirror

当在谈论“通用模型”和“垂直模型”的时候,在讨论什么东西

通用模型:10w个子任务

垂直模型:3w个子任务

需要的模型:10-500个子任务

怎么准备“好”数据

论文 AnyTaskTune: Advanced Domain-Specific Solutions through Task-Fine-Tuning

标题:AnyTaskTune:通过任务微调实现先进的特定领域解决方案 pdf AnyTaskTune: Advanced Domain-Specific Solutions through Task-Fine-Tuning

在一个领域内识别和定义目标子任务,然后创建专门的增强数据集进行微调,从而优化特定任务的模型性能。法律咨询反问子任务。

问题解答

SCI-GPT为什么G了:各行各业领域差距太大了

DAG项目,尽量基于faiss自己搭框架,那样细节可控

微调数据集方法:LLaMA Factory开源框架

总结

将练手demo那个学完,会收获很大

LLaMA Factory开源框架还没用过,安排上!

  • 11
    点赞
  • 18
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值