小芒果的学习星球-CSDN博客

原创 RASA使用长文记录以及一些bug整理

stories:steps:steps:中文项目，包含了三个场景：简单闲聊，查电话号码，查天气。用到了MITIE模型，有默认的可以下载直接实验。

2024-08-27 15:00:26 1540 3

在目录.conda/envs/gf_python38/lib/python3.8/site-packages/bitsandbytes，用自己的cuda版本.so 覆盖libbitsandbytes_cpu.so。最终连78M的容量都余不出来，想着会不会不是内存的问题，看看能不能释放出来保留的一部分内容，就可以跑程序了。如下图，我在glm环境中安装，匹配说rasa3环境中已经存在因为拒绝安装。之前能用的环境，rasa3中，报错如此。百度发现说是nohup导致的错误，改成tmux，如下是方法。

2024-08-27 14:51:09 1457

原创多意图指令识别项目调研及整理

首先，根据一个序列标签模型，对长句预分段，分为多段语料。其次，事先定义了一个意图和语句对应多意图-断句专利调研综述的库。此处句子用词向量表示。类似意图语料的标注，该意图下所属的句子有哪些，这样的一个数据库再次，计算分段语料和预制意图库内词向量的匹配度，就是识别分段语料属于哪个意图，可以用分类，此处用了文本匹配。最后，对分段语料的意图做整理，如果前后是互斥关系（我不去天安门要去西单这种），取转折后的意图作为句子意图。其中，分段语料提取和分段语料的意图拆分，还有详细说明，没看懂。

2024-08-27 14:46:31 2075

原创医疗知识图谱工程研究记录

分类模型由sklearn 库中的逻辑回归和gdbt实现，两种模型的预测结果概率值做平均，以此来区分是否是闲聊，以及闲聊的类别。通过预先对问句进行意图标注，形成一定规模的标注数据集，然后通过构造分类器进行训练，然后得到分类结果。过程为对问句进行解析，形成若干三元组及相关的操作条件，转换为查询语句，查询数据库返回结果。1.对用户输入的query，做问题分类，分类主要靠关键词匹配，匹配到症状，原因，饮食，药物，预防。6.如果是确定的问题，根据slot获取对应的cql语句，然后进行数据库查询，返回答案。

2024-08-27 14:35:47 1062

原创 RAG中pdf解析的方法全览

是一个基于深度学习的文档图像分析工具包，它提供了布局检测、OCR识别、布局分析等接口，适用于处理和分析扫描文档或图像中的文字。该代码从pdf中结构出各个标题层级的关系，又在word中重建该结构。首先，将pdf的每一页转为图像，以便对其执行OCR来提取文本块。3.带OCR的扫描文档。可能转OCR的过程中带入了错误。1.机器生成的pdf文件，包含图像，文本，可以被编辑。2.传统扫描文档，表现为图像，不能被编辑。解析pdf论文的话，使用特定模型。

2024-08-27 14:10:44 1203

原创一文梳理完全RAG的所有模块优化方法

信息检索和生成语言建模。这种方法旨在为语言模型提供访问外部数据源，来提高其在生成响应时的准确性和相关性，从而增强语言模型的能力。【索引，检索，生成】

2024-07-11 19:33:27 1664

原创大模型中分词方法的探究

生成的方法：先定义最基本初始集合，类似26个字母，再将训练语料split为wordpiece单元的格式，再统计两两piece的分数/频率对，等各种指标，统计结果大的，先两两合并为一个新的单元，再继续迭代统计。1.扩充中文词汇表：在中文语料库上训练一个中文tokenizer模型，然后将中文 tokenizer 与 LLaMA 原生的 tokenizer 进行合并，通过组合它们的词汇表，最终获得一个合并后的 tokenizer 模型。1.提高模型的编码效率，可以把一些垂直领域的词加入词表中。

2024-07-09 20:40:59 662

原创 bert源码详解及相关问题回答

1.构建layer层，12个layer层，每个layer层是一个transformer层的encoder部分。2.forward函数，这个函数做的就是每一个encoder的输出接到下一个encoder的输入，这样讲全部encoder连接起来。output_all_encoded_layers控制输出模式。

2024-05-29 16:20:17 1273

原创 llamaindex介绍以及加载中文模型的4种方法

llamaIndex是一个用于LLM应用程序的数据框架。用于注入，结构化，并访问私有或特定领域数据。用通俗易懂的方式讲解：大模型应用框架 LangChain 和 LlamaIndex，到底谁更胜一筹？llamaindex的官网介绍：https://docs.llamaindex.ai/en/stable/examples/low_level/oss_ingestion_retrieval/内容包括如下使用模型，加载数据，数据向量化，存储向量，对输入query做检索，跟踪。效果评估。

2024-05-22 18:01:39 3535

原创大模型和任务型对话系统如何结合

三种方法都是基于prompt1.prompt中定义大量可分类的domain标签，每种标签含有的样例。走对话系统nlu常规步骤，domain分类，意图分类，slot提取等。缺点：需要很复杂的prompt，写的未必完善。需要多次调用llm2.prompt中定义每种query下可以调用的functioncall。3.也是基于prompt，可以管理对话主题，实现更丰富的话题流转。面向某个具体领域，没有细分的domain类别。

2024-05-22 17:06:00 2313

原创对话管理研究总结篇

系统得到多个nlu模型的结果后，使用prune，裁减掉无slot的结果，或者其他不靠谱结果。上图中的ranking policy的含义：至少两个对话假设或者对话结果，要做判断，根据nlu结果，cpsp结果等，去掉一些结果。多轮对话:需要 DM模块来管理对话内容，需要DST来维护对话状态，需要DP（dialog policy）来评定给出最终回复。该模块定义了不同类型的对话管理策略，rasa将依据这些策略，执行不同actions，完成多轮对话任务。对话状态包括：对话历史，用户意图，槽值对，系统action等。

2024-05-22 17:00:10 1456

原创 RAG介绍及RAG的优化

信息检索和生成语言建模。这种方法旨在为语言模型提供访问外部数据源，来提高其在生成响应时的准确性和相关性，从而增强语言模型的能力。1）检索：用收到的query去库里查到最相关的文档或者上下文2）生成：把以上得到的内容输入给LLM，LLM通过理解和结合，整理回答出问题的答案。参考 https://mp.weixin.qq.com/s/mn0MilYoyV0Df_7SXnuY2g高级检索增强生成（Advanced RAG）：对传统RAG增加复杂的检索前和检索后过程。检索后：增加ReRank。

2024-04-26 11:48:07 1029

原创 Rasa网页部署以及和LLM的结合

。

2024-04-01 11:45:21 2157

原创惩罚项介绍加L1L2正则介绍

机器学习中，损失函数后接的补充项就是惩罚项。训练中希望得到简洁，泛化能力强的模型。随着训练使用的数据越多，特征维度也多，模型泛化能力会变差，也就是过拟合，为了掌握一种平衡增加惩罚项。

2024-04-01 11:40:02 896

原创大模型中的分词方法探究

比如，在扩展词表后的模型中，单个汉字倾向于被切成1个token，而在原版LLaMA中可能就需要2-3个才能组合成一个汉字，显著降低编解码的效率。1.扩充中文词汇表：在中文语料库上训练一个中文tokenizer模型，然后将中文 tokenizer 与 LLaMA 原生的 tokenizer 进行合并，通过组合它们的词汇表，最终获得一个合并后的 tokenizer 模型。思路是：SentencePiece提出的目的是在给定词汇表大小的前提下，最大化词表信息编码（词频+多样性）subword编码。

2024-04-01 11:36:49 1440

原创 langchain加载本地中文模型的4种方法

langchain如何加载本地中文模型

2024-04-01 11:34:12 11172 9

原创大模型微调训练经验

Prefix-tuning将预训练参数固定，Prefix参数进行微调：不仅只在embedding上进行微调，也在TransFormer上的embedding输入每一层进行微调。Prompt-tuning 给每个任务定义了自己的 Prompt，拼接到数据上作为输入，同时 freeze 预训练模型进行训练，在没有加额外层的情况下，可以看到随着模型体积增大效果越来越好，最终追上了精调的效果.微调：为了垂直推理场景，比如医疗问答。即参数冻结，对原始模型部分参数进行冻结操作，仅训练部分参数，就可以对大模型进行训练。

2024-03-29 18:13:03 1355

原创 langchain源码加模块介绍

用langchain实现一个基于文本的问答机器人用langchain实现一个简易的聊天机器人。

2024-03-29 18:06:17 1861 1

qq_29837229的博客