自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(19)
  • 收藏
  • 关注

原创 RASA使用长文记录以及一些bug整理

stories:steps:steps:中文项目,包含了三个场景:简单闲聊,查电话号码,查 天气。用到了MITIE模型,有默认的可以下载直接实验。

2024-08-27 15:00:26 773

原创 python训练模型bug记录

在目录.conda/envs/gf_python38/lib/python3.8/site-packages/bitsandbytes,用自己的cuda版本.so 覆盖libbitsandbytes_cpu.so。最终连78M的容量都余不出来,想着会不会不是内存的问题,看看能不能释放出来保留的一部分内容,就可以跑程序了。如下图,我在glm环境中安装,匹配说rasa3环境中已经存在因为拒绝安装。之前能用的环境,rasa3中,报错如此。百度发现说是nohup导致的错误,改成tmux,如下是方法。

2024-08-27 14:51:09 896

原创 多意图指令识别项目调研及整理

首先,根据一个序列标签模型,对长句预分段,分为多段语料。其次,事先定义了一个意图和语句对应多意图-断句 专利调研综述的库。此处句子用词向量表示。类似意图语料的标注,该意图下所属的句子有哪些,这样的一个数据库再次,计算分段语料和预制意图库内词向量的匹配度,就是识别分段语料属于哪个意图,可以用分类,此处用了文本匹配。最后,对分段语料的意图做整理,如果前后是互斥关系(我不去天安门要去西单 这种),取转折后的意图作为句子意图。其中,分段语料提取和分段语料的意图拆分,还有详细说明,没看懂。

2024-08-27 14:46:31 626

原创 医疗知识图谱工程研究记录

分类模型由sklearn 库中的逻辑回归和gdbt实现,两种模型的预测结果概率值做平均,以此来区分是否是闲聊,以及闲聊的类别。通过预先对问句进行意图标注,形成一定规模的标注数据集,然后通过构造分类器进行训练,然后得到分类结果。过程为对问句进行解析,形成若干三元组及相关的操作条件,转换为查询语句,查询数据库返回结果。1.对用户输入的query,做问题分类,分类主要靠关键词匹配,匹配到症状,原因,饮食,药物,预防。6.如果是确定的问题,根据slot获取对应的cql语句,然后进行数据库查询,返回答案。

2024-08-27 14:35:47 816

原创 大模型实战-FinGLM解析金融财报做RAG经验参考篇

​ 4)prompt转为sql从存储数据库中查数据。

2024-08-27 14:34:45 1050

原创 RAG中pdf解析的方法全览

是一个基于深度学习的文档图像分析工具包,它提供了布局检测、OCR识别、布局分析等接口,适用于处理和分析扫描文档或图像中的文字。该代码从pdf中结构出各个标题层级的关系,又在word中重建该结构。首先,将pdf的每一页转为图像,以便对其执行OCR来提取文本块。3.带OCR的扫描文档。可能转OCR的过程中带入了错误。1.机器生成的pdf文件,包含图像,文本,可以被编辑。2.传统扫描文档,表现为图像,不能被编辑。解析pdf论文的话,使用特定模型。

2024-08-27 14:10:44 429

原创 一文梳理完全RAG的所有模块优化方法

信息检索和生成语言建模。这种方法旨在为语言模型提供访问外部数据源,来提高其在生成响应时的准确性和相关性,从而增强语言模型的能力。【索引,检索,生成】

2024-07-11 19:33:27 863

原创 大模型中分词方法的探究

生成的方法:先定义最基本初始集合,类似26个字母,再将训练语料split为wordpiece单元的格式,再统计两两piece的分数/频率对,等各种指标,统计结果大的,先两两合并为一个新的单元,再继续迭代统计。1.扩充中文词汇表:在中文语料库上训练一个中文tokenizer模型,然后将中文 tokenizer 与 LLaMA 原生的 tokenizer 进行合并,通过组合它们的词汇表,最终获得一个合并后的 tokenizer 模型。1.提高模型的编码效率,可以把一些垂直领域的词加入词表中。

2024-07-09 20:40:59 293

原创 bert源码详解及相关问题回答

1.构建layer层,12个layer层,每个layer层是一个transformer层的encoder部分。2.forward函数,这个函数做的就是每一个encoder的输出接到下一个encoder的输入,这样讲全部encoder连接起来。output_all_encoded_layers控制输出模式。

2024-05-29 16:20:17 1002

原创 llamaindex介绍以及加载中文模型的4种方法

llamaIndex是一个用于LLM应用程序的数据框架。用于注入,结构化,并访问私有或特定领域数据。用通俗易懂的方式讲解:大模型应用框架 LangChain 和 LlamaIndex,到底谁更胜一筹?llamaindex的官网介绍:https://docs.llamaindex.ai/en/stable/examples/low_level/oss_ingestion_retrieval/内容包括如下使用模型,加载数据,数据向量化,存储向量,对输入query做检索,跟踪。效果评估。

2024-05-22 18:01:39 1633

原创 大模型和任务型对话系统如何结合

三种方法都是基于prompt1.prompt中定义大量可分类的domain标签,每种标签含有的样例。走对话系统nlu常规步骤,domain分类,意图分类,slot提取等。缺点:需要很复杂的prompt,写的未必完善。需要多次调用llm2.prompt中定义每种query下可以调用的functioncall。3.也是基于prompt,可以管理对话主题,实现更丰富的话题流转。面向某个具体领域,没有细分的domain类别。

2024-05-22 17:06:00 1292

原创 对话管理研究总结篇

系统得到多个nlu模型的结果后,使用prune,裁减掉无slot的结果,或者其他不靠谱结果。上图中的ranking policy的含义:至少两个对话假设或者对话结果,要做判断,根据nlu结果,cpsp结果等,去掉一些结果。多轮对话:需要 DM模块来管理对话内容,需要DST来维护对话状态,需要DP(dialog policy)来评定给出最终回复。该模块定义了不同类型的对话管理策略,rasa将依据这些策略,执行不同actions,完成多轮对话任务。对话状态包括:对话历史,用户意图,槽值对,系统action等。

2024-05-22 17:00:10 663

原创 RAG介绍及RAG的优化

信息检索和生成语言建模。这种方法旨在为语言模型提供访问外部数据源,来提高其在生成响应时的准确性和相关性,从而增强语言模型的能力。1)检索:用收到的query去库里查到最相关的文档或者上下文2)生成:把以上得到的内容输入给LLM,LLM通过理解和结合,整理回答出问题的答案。参考 https://mp.weixin.qq.com/s/mn0MilYoyV0Df_7SXnuY2g高级检索增强生成(Advanced RAG):对传统RAG增加复杂的检索前 和检索后过程。检索后:增加ReRank。

2024-04-26 11:48:07 584

原创 Rasa网页部署以及和LLM的结合

​。

2024-04-01 11:45:21 1287

原创 惩罚项介绍加L1L2正则介绍

机器学习中,损失函数后接的补充项就是惩罚项。训练中希望得到简洁,泛化能力强的模型。随着训练使用的数据越多,特征维度也多,模型泛化能力会变差,也就是过拟合,为了掌握一种平衡增加惩罚项。

2024-04-01 11:40:02 329

原创 大模型中的分词方法探究

比如,在扩展词表后的模型中,单个汉字倾向于被切成1个token,而在原版LLaMA中可能就需要2-3个才能组合成一个汉字,显著降低编解码的效率。1.扩充中文词汇表:在中文语料库上训练一个中文tokenizer模型,然后将中文 tokenizer 与 LLaMA 原生的 tokenizer 进行合并,通过组合它们的词汇表,最终获得一个合并后的 tokenizer 模型。思路是:SentencePiece提出的目的是在给定词汇表大小的前提下,最大化词表信息编码(词频+多样性)subword编码。

2024-04-01 11:36:49 740

原创 langchain加载本地中文模型的4种方法

langchain如何加载本地中文模型

2024-04-01 11:34:12 6168 8

原创 大模型微调训练经验

Prefix-tuning将预训练参数固定,Prefix参数进行微调:不仅只在embedding上进行微调,也在TransFormer上的embedding输入每一层进行微调。Prompt-tuning 给每个任务定义了自己的 Prompt,拼接到数据上作为输入,同时 freeze 预训练模型进行训练,在没有加额外层的情况下,可以看到随着模型体积增大效果越来越好,最终追上了精调的效果.微调:为了垂直推理场景,比如医疗问答。即参数冻结,对原始模型部分参数进行冻结操作,仅训练部分参数,就可以对大模型进行训练。

2024-03-29 18:13:03 961

原创 langchain源码加模块介绍

用langchain实现一个基于文本的问答机器人用langchain实现一个简易的聊天机器人。

2024-03-29 18:06:17 1205

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除