自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

春华秋实

如有侵权,请联系博主删除,欢迎关注我的个人公众号:易数云笔记(yishucloud_notes)谢谢。

  • 博客(809)
  • 资源 (7)
  • 收藏
  • 关注

原创 普通人秒变AI专家:李沐创业同款RAG微调实战,打造专属外卖评论大模型

文本分类是自然语言处理中的一项核心任务,广泛应用于情感分析、主题标签分类、问答系统和对话行为分类等领域。传统的机器学习方法,如逻辑回归、朴素贝叶斯和支持向量机,虽然在处理已知类别上表现良好,但依赖大量标记数据,且在面对新任务时表现有限。深度学习方法,如深度神经网络、递归神经网络和卷积神经网络,通过捕捉复杂的数据关系,已经在性能上超越了传统算法。然而,这些深度学习模型同样依赖大量标记数据,并且在不经过大量重新训练的情况下,难以快速适应新任务。这使得在实际应用中,模型的适应性和灵活性仍然是一个挑战。

2024-09-12 10:58:04 34

原创 RAG工程必备神器:LlamaIndex全方位入门与应用指南

LlamaIndex 是一个复杂的框架,旨在使用您的专有数据进行索引和查询LLMs。此框架支持广泛的数据源,包括结构化数据(如关系数据库)、非结构化数据(如 NoSQL 数据库)和半结构化数据(如 Salesforce CRM 数据)。LlamaIndex 的主要优势在于它能够将专有数据索引到最先进的LLMs可以理解的嵌入中,从而消除了从头开始重新训练模型的需要。LlamaIndex 的强大之处在于它能够获取您的数据,无论其结构如何,并将其转换为LLMs可以有效理解和利用的格式。

2024-09-09 17:08:15 72

原创 RAG 聊天机器人:用 Langchain 和 Streamlit开启与 PDF 的智能对话

这篇文章将带您逐步构建一个基于 Multi-RAG 和 Streamlit 的 Web 应用程序,该应用程序通过 AI 驱动的聊天机器人来读取、解析和处理 PDF 数据,提供前所未有的用户体验。通过执行这些步骤,您可以创建一个应用程序,该应用程序不仅可以处理和理解大型 PDF 文档,还可以以有意义的方式与用户交互。这是使用 Langchain 的文本拆分器完成的,它通过将大文本划分为更小、更易于管理的段来帮助管理大文本。:对于每个上传的 PDF,应用程序使用 PdfReader 遍历每个页面并提取文本。

2024-09-09 16:59:24 509

原创 提示工程颠覆:DSPy 引领全新范式革命

所谓提示词,说白了就是我们给大模型下发的指令,提示词写对了,大模型才能输出相应的结果,提示词写的越好,大模型输出的结果就越准确。提示词由下面的一个或多个要素组成:指令(Instruction):给模型下达指令,或者描述要执行的任务;上下文(Context):给模型提供额外的上下文信息,引导模型更好地响应;输入数据(Input Data):用户输入的内容或问题;输出指示(Output Indicator):指定输出的类型或格式核心概念。

2024-09-06 17:54:06 139

原创 深入RAG优化:BGE词嵌入全解析与Landmark Embedding新突破

在大模型时代,它更是用于解决幻觉问题、知识时效问题、超长文本问题等各种大模型本身制约或不足的必要技术。然而,当前中文世界的高质量语义向量模型仍比较稀缺,且很少开源。为加快解决大模型的制约问题,近日,智源发布最强开源可商用中英文语义向量模型BGE(BAAI General Embedding),在中英文语义检索精度与整体语义表征能力均超越了社区所有同类模型,如OpenAI 的text embedding 002等。此外,BGE 保持了同等参数量级模型中的最小向量维度,使用成本更低。

2024-09-05 16:08:23 324

原创 RAG挑战来袭:长上下文的LLMs会取代RAG系统吗?

例如,SRF-Embedding-Mistral 和 GritLM7B 是 Huggingface MTEB 排行榜上性能最好的两个嵌入模型,它们支持 32k 个令牌长的上下文,展示了嵌入能力的实质性改进。:真实世界的用例不仅涉及非结构化数据,如冗长的文本、图像和视频,还涉及各种结构化数据,这些数据可能无法被用于LLM训练目的的各种结构化数据,例如时间序列数据、图形数据和代码更改。这意味着,RAG 在未来仍将扮演重要角色,尽管它可能会演变成多种不同的形态,不再局限于目前大模型和向量检索分开的模式。

2024-09-05 15:53:53 232

原创 提升RAG系统效果:揭秘Rewrite技术及其关键优化策略,提高召回率与精确度

关于RAG的优化,前面我们讲过一篇是Rerank的优化,《揭开RAG重排序(Rerankers)和两阶段检索(Two-Stage Retrieval)的神秘面纱》,Rerank优化的目的是通过向量检索返回更多的top K结果,以提高召回率和精确度。上图,从左到右,我们展示了(a)标准的retrieve-then-read方法,(b)LLM 作为我们的 rewrite-retrieve-read管道的查询重写器,以及(c)带有可训练重写器的管道。例如,考虑使用个性化推送通知,提前告知粉丝直播的详细信息。

2024-09-03 11:33:31 322

原创 RAG最佳实践:用 ElasticSearch 打造AI搜索系统与RAG 应用全流程详解!

AI 对话式搜索是一种基于自然语言处理(NLP)和机器学习技术的搜索方式,旨在通过与用户的自然对话实现信息检索。这种搜索模式允许用户以自然语言提问,而不是输入特定的关键词。AI 对话式搜索系统可以理解用户的查询意图,并通过智能匹配算法提供相关的答案或信息。这种搜索体验更加贴近人类的交流方式,使搜索过程更加直观和用户友好,特别适用于需要复杂查询或个性化推荐的场景。接下来,我们将深入探讨如何构建这样的 AI 对话式搜索应用程序,从数据准备、模型选择到系统集成,逐步展示实现这一技术的不同步骤。

2024-08-30 16:01:38 579

原创 RAG必备知识:OpenAI官宣结构化输出|结构化输出工具大汇总

官宣:根据非常普遍的需求,OpenAI的API 中开始支持结构化输出。在 API 中引入结构化输出 - 模型输出现在遵循开发人员提供的 JSON 模式。让大型语言模型(Large Language Models, LLMs)进行结构化输出是自然语言处理(NLP)领域中的一个重要目标。结构化输出指的是将自然语言转换成具有明确格式和结构的数据,如表格、数据库条目、JSON对象等。快速进行尝试一个。这个真香,再也不用为没有固定返回格式发愁了。

2024-08-28 11:34:42 66

原创 RAG 向量数据库:掌握 Elasticsearch 作为向量数据库的终极指南

Elasticsearch Vector DB是一种先进的数据存储和检索技术,它结合了Elasticsearch的全文搜索功能和向量搜索的能力。其开放源代码和活跃的社区支持也为开发者提供了丰富的资源和工具,加速了技术的普及和创新。在不断发展的数据管理环境中,Elasticsearch 已成为一个突出的参与者,通过其向量数据库引入了突破性的功能,为数据搜索和检索领域带来的变革性影响。此外,向量数据库结合了传统全文搜索和现代向量搜索的优点,提供了更精准和快速的搜索体验,提升了用户的满意度和业务的竞争力。

2024-08-27 17:25:55 298 1

原创 重磅开源利器 Denser Retriever:轻松打造顶尖 RAG 应用的终极检索器

对 Denser Retriever 在 MTEB 数据集上的评估显示,通过使用 xgboost 模型(简称 ES+VS+RR_n),将关键词搜索、向量搜索和重排序器结合,能够显著提升向量搜索(VS)的基准性能。向量搜索:通过神经网络模型将查询和文档编码为高维空间中的密集向量表示,我们使用Milvus和Snowflake-arctic-embed-m模型,该模型在MTEB/BEIR排行榜的各个尺寸变体中均实现了最先进的性能。对于需要持续更新的知识库,如新闻数据或实时反馈的系统,检索器的选择更为关键。

2024-08-26 10:10:20 57

原创 RAG必懂知识:什么是向量数据库的距离?一文详解向量距离

向量距离,也称为距离度量或相似度度量,是一种数学函数,用于量化两个向量之间的相似性或差异性。这些向量可以代表各种数据集,向量距离有助于理解向量在特征空间中的接近程度或远离程度。因此,向量距离在各种机器学习算法中至关重要,使这些算法能够基于向量之间的关系做出决策。对于距离的度量,我们可以在几何距离测量和统计距离测量之间进行选择,应该选择哪种距离度量取决于数据的类型。特征可能有不同的数据类型(例如,真实值、布尔值、分类值),数据可能是多维的或由地理空间数据组成。

2024-08-23 16:31:17 42

原创 揭开RAG的秘密:向量数据库如何引领智能检索革命

首先,在实现原理方面,向量是模型对语义含义的编码形式,向量数据库可以更好地理解查询的语义内容,因为它们利用了深度学习模型的能力来编码文本的含义,而不仅仅是关键字匹配。举例来说,对于熟悉猫的人,他们能很快辨别不同种类的猫,因为他们会根据不同的角度来观察猫的特征,比如体型大小。通过计算两个向量之间的距离,我们可以找到相关的事物或信息。最后,在总拥有成本上,相比其他选项,向量数据库的部署更加方便、易于上手,同时也提供了丰富的API,使其易于与现有的机器学习框架和工作流程集成,因而深受许多RAG应用开发者的喜爱。

2024-08-23 16:15:29 43

原创 RAG优化攻略:最详细的RAG构建分块策略与实战代码案例

该方法的核心思想是,如果在初始分割时未能生成所需大小或结构的块,则会使用不同的分隔符或标准对生成的块递归调用,直到获得所需的块大小或结构。这种方法简单高效,能够确保每个分块都是完整的句子,从而为后续的文本处理和分析提供坚实的基础。合理的分块策略能够在保留上下文信息的同时,提供足够细粒度的内容描述,从而实现高效、精准的检索。例如,对于需要细粒度语义分析的应用,如细节丰富的问答系统或深入的文本理解,较小的块大小可能更为合适。在资源有限的情况下,较小的块可以减少内存和处理时间的消耗,但也可能增加处理的复杂性。

2024-08-22 13:53:55 188

原创 RAG优化秘籍:非结构化文档解析全攻略大汇总

RAG技术的适用性极为广泛,包括问答系统、文档生成、智能助手、信息检索和知识图谱填充等自然语言处理任务,显著提升了大型语言模型在处理知识密集型任务时的性能。通过这些方法,可以高效地将不同格式的文档内容解析为结构化数据,进而在RAG技术中发挥其作用,提升信息检索和文本生成的准确性和效率。如果需要OCR技术来解析图像或扫描的PDF文档,选择高效的OCR引擎,如Tesseract,并对其进行参数调优。通过上述方法和策略,可以有效地优化PDF的解析过程,并高效地处理解析后的数据,为各种应用场景提供支持。

2024-08-20 17:50:53 305

原创 RAG2.0重磅发布,究竟有哪些颠覆性更新?

上图展示了从 RICHES 到多跳问答的解决方案(Yang et al., 2018),其中必须从多个单独的文档中检索证据,通过迭代生成关于需要检索的内容的无约束“思想”,然后生成一个从证据语料库派生的支持命题,并与原始支持文本相关联。RICHES在开放领域问答(归因问答、多跳问答和检索思考)任务上展现出强大的性能,与传统的检索增强生成方法相比,在多跳问答任务(Hotpot)上表现尤为出色,能够通过单一的解码过程实现更准确的答案生成。通过消除对独立检索器和发生器的需求,提供了传统 RAG 系统的替代方案。

2024-08-19 13:54:06 70

原创 还在困惑RAG评估?一篇文章彻底解析RAG评估工作流程!

参考:https://smith.langchain.com/hub/langchain-ai/rag-answer-vs-reference。参考:https://smith.langchain.com/hub/langchain-ai/rag-answer-helpfulness。参考:https://smith.langchain.com/hub/langchain-ai/rag-document-relevance。评估生成步骤,以确保在检索到的文档中生成正确的答案。

2024-08-16 16:54:22 54

原创 全网最全RAG评估指南:全面解析RAG评估指标并提供代码示例

为了计算单个查询的平均准确率,需要在检索到的文档的排序列表中的每个位置计算精确度,只考虑前K个检索到的文档,其中每个精确度都根据文档是否相关进行加权。例如,在法律信息检索系统中,高召回率至关重要,因为未能检索到相关的法律文件可能导致不完整的案例研究,并可能影响法律诉讼的结果。例如,在基于RAG的搜索引擎中,MAP至关重要,因为它考虑了检索的精确度和不同排名的检索结果,确保相关文档在搜索结果中更高地显示,从而通过首先呈现最相关的信息来提高用户体验。它衡量生成的响应对用户的查询提供了多少有用的信息。

2024-08-14 15:34:00 282

原创 【RAG实战】基于TextIn打造上市公司财务报表智能问答系统

这不仅保证了数据的完整性和准确性,还能显著提高系统的整体性能和用户体验。精准解析确保了关键信息的正确提取和结构化,进而提升了检索的效率和生成的回答的质量。此过程包括提取和整理文本中的关键信息,如财务数据、表格和图表,从而确保数据的结构化格式能够支持高效的检索和生成操作。在RAG的预处理阶段,文档解析的准确性至关重要,因为任何解析上的误差都会直接影响后续的检索和生成结果,进而影响整个系统的性能。然而,对于更复杂的文档解析,尤其是涉及大量图表、复杂表格或非标准格式的财务报表时,单一的开源工具可能难以满足需求。

2024-08-13 12:26:41 110

原创 Rerank模型哪款最强?详解如何轻松集成到你的项目中!

新的reranker模型:发布跨编码器模型 BAAI/bge-reranker-base 和 BAAI/bge-reranker-large ,它们比嵌入模型更强大。所以,当在RAG 项目中,使用Embedding 求出topN的时候,N可以大一点儿,然后重新组织问题和检索出来的答案。比如,question是问题,top_n_answers是Embedding返回的结果,得到Rerank的新数据结构。几乎所有的Embeddings都在重排之后显示出更高的命中率和MRR,所以rerank的效果是非常显著的。

2024-08-13 11:23:48 238

原创 揭开RAG重排序(Rerankers)和两阶段检索(Two-Stage Retrieval)的神秘面纱

此外,由于查询是在收到后才知道的,双编码器对查询的上下文一无所知(我们是在用户提出查询之前就已经创建了嵌入)。由于重排序器是在用户提出查询时才运行,这让我们能够针对具体查询分析文档的含义,而非仅生成一个泛化的、平均化的含义。然而,这在实际操作中是不可行的,因为大语言模型对可处理的文本量有限制,这个限制称为上下文窗口。第二,尽管大模型拥有高达100K Token的巨大上下文窗口,理论上可以包含大量文档,但我们仍然不能返回所有文档并填满上下文窗口来提高召回率。请注意,这里的文档A实际上等同于我们的查询。

2024-08-12 09:56:19 204

原创 教你实现ChatPDF:从零到一的完整指南!

因为大语言模型 Large Language Model 的缩写是 LLM,当年 Meta 公司觉得两个 L 在一起不太好念,所以就选了一个相近的词语 llama,它的意思是美洲驼。其核心目的是简化对复杂文档的理解和查询过程,使用户能够通过自然语言与文档内容进行互动,从而提高信息检索的效率和准确性。为什么有那么多以驼命名的大语言模型呢?文档上传和处理:用户首先上传PDF文档,系统将对文档进行解析和处理,包括文本抽取和结构识别。集成语言模型:使用先进的语言模型对提取的文本进行嵌入,建立文档内容的向量表示。

2024-08-12 09:44:50 92

原创 FFmpeg中,‌-update等覆盖参数对比

在 FFmpeg 中,‌-update 参数主要用于处理输出文件时的一种特定行为,‌特别是当你想要更新一个已经存在的文件时。‌然而,‌需要注意的是,‌-update 参数并不是 FFmpeg 官方文档中直接列出的一个常用参数。‌实际上,‌FFmpeg 的命令行工具集并没有直接名为 -update 的参数。‌不过,‌在处理文件输出时,‌FFmpeg 的行为可以通过其他方式来实现类似 -update 的效果,‌这主要取决于你使用的输出格式和上下文。‌类似 -update 的行为。

2024-08-09 14:41:33 365

原创 如何高效选择RAG的中文Embedding模型?揭秘最佳实践与关键标准!

这种技术广泛应用于自然语言处理(NLP)、推荐系统、图像处理等领域,用于将离散的、稀疏的输入数据(如词汇、用户ID、物品ID)转化为密集的、连续的向量表示。较高的维度可以捕捉更多的细节信息,但也会增加计算开销。性能优异的Embedding模型能够提供更准确的向量表示,从而提高信息检索的准确性和生成文本的质量。可扩展性:在处理大量数据或需要频繁更新模型的场景中,模型的可扩展性至关重要。社区和支持:选择有活跃社区和良好支持的Embedding模型,可以更方便地获取帮助和资源,解决使用过程中遇到的问题。

2024-08-09 09:47:01 63

原创 如何高效选择RAG的中文Embedding模型?揭秘最佳实践与关键标准!

这种技术广泛应用于自然语言处理(NLP)、推荐系统、图像处理等领域,用于将离散的、稀疏的输入数据(如词汇、用户ID、物品ID)转化为密集的、连续的向量表示。较高的维度可以捕捉更多的细节信息,但也会增加计算开销。性能优异的Embedding模型能够提供更准确的向量表示,从而提高信息检索的准确性和生成文本的质量。可扩展性:在处理大量数据或需要频繁更新模型的场景中,模型的可扩展性至关重要。社区和支持:选择有活跃社区和良好支持的Embedding模型,可以更方便地获取帮助和资源,解决使用过程中遇到的问题。

2024-08-08 17:35:53 533

原创 【查漏补缺】10个关于RAG的冷知识,你知道几个?

将这些组件组合在一个端到端训练的概率模型中(图 1)。生成策略调整:使用不同的生成策略,如搜索(beam search)、温度采样(temperature sampling)或顶级采样(top-k sampling),来平衡生成文本的质量和多样性。检索到的多个文档可能会包含相互矛盾的信息,生成模型需要有效地筛选和整合这些信息,避免生成混淆或矛盾的内容。尽管RAG技术面临这些挑战,它仍然代表了文本生成技术的一个重要进步,通过不断的研究和改进,这些挑战有望得到解决,从而进一步提升RAG系统的性能和实用性。

2024-08-08 17:30:09 166

原创 比刷剧还爽!从零开始动手实践小模型训练指南

此外,小模型还能够在保持相对较高性能的同时,提供高效的解决方案,为广泛的应用场景带来了灵活性和可行性选择。:通过结合检索和生成的优势,创建一个RAG(Retrieval-Augmented Generation)系统,可以提升你的技术水平,并为你的项目增添实用价值。从零训练1B以下的小模型,对于资源有限的开发者来说,从零开始训练一个小模型是一个可行且有益的实践项目。最近,我在网上搜集了不少资料,主要是GitHub上的仓库和Arxiv上的论文,并将其记录在这里,供大家参考和学习。,参数最小达到0.5B。

2024-08-07 10:22:42 251

原创 大模型量化技术大揭秘:INT4、INT8、FP32、FP16的差异与应用解析

在INT8量化中,模型的权重和激活值会经过一个量化过程,包括缩放和偏移,以尽可能保留原始浮点数的信息。大模型的量化是一种优化技术,其过程包括将深度学习模型中的权重和激活值从高精度浮点数(如32位)转换为低精度表示(如8位整数,INT8),这个过程被称为“量化”。具体而言,模型量化是一种压缩网络参数的方式,它将神经网络的参数(weight)、特征图(activation)等原本用浮点表示的量值,换成用定点(整型)表示,在计算过程中,再将定点数据反量化回浮点数据,得到结果,如图所示。

2024-08-07 10:05:20 368

原创 GraphRAG:知识图谱+大模型案例实战(二)

这种场景旨在通过结合知识图谱中的结构化数据和输入文档中的非结构化数据,增强大型语言模型(LLM)在查询时的上下文,从而更好地回答涉及输入文档中特定实体的问题。这种方法将即用的图谱数据与非结构化文本结合,基于实体进行推理,利用知识图谱中的结构化数据和输入文档中的非结构化数据,以在查询时为LLM提供与查询相关的实体信息。文档嵌入:使用文档切片的平均嵌入生成文档的向量表示,理解文档之间的隐含关系,并帮助生成文档的网络表示。社区嵌入:生成社区报告、社区报告摘要和社区报告标题的文本嵌入,生成社区的向量表示。

2024-08-06 09:56:00 89

原创 大模型应用中一个 Token 占多少汉字?答案超乎想象!

如腾讯1token≈1.8个汉字,通义千问、千帆大模型等1token=1个汉字,对于英文文本来说,1个token通常对应3至4个字母, 不同的模型对相同的输入分词, 分词结果是不一样的。对于普通用户很难理解Token这个概念, 这个概念是隐藏在模型内部的, 对于普通使用者来说,这种计价方式无疑是致命的, 所以对于大部分普通使用者,还是采用包月方式偏多, Token计价方式针对的是开发者,希望通过API方式进行调用,封装自己的应用。分词器根据预定义的词汇表和算法,将文本拆解成模型可以理解和处理的最小单元。

2024-08-06 09:40:49 140

原创 革命性突破:斯坦福TTT架构,Transformer时代终结?

TTT,全称Test-Time-Training layers,是一种全新的架构,通过梯度下降压缩上下文,直接替代了传统的注意力机制。传统的Transformer通过注意力机制捕捉输入序列中不同位置的相关性,而TTT通过在推理时进行训练,压缩上下文信息,提高模型的理解和生成能力。最近,一个名为TTT的全新架构横空出世,由斯坦福、UCSD、UC伯克利和Meta的研究人员共同提出,颠覆了Transformer和Mamba,为语言模型带来了革命性的改变。TTT层的问世,为AI领域带来了新的活力和可能性。

2024-08-06 09:22:45 52

原创 GraphRAG:知识图谱+大模型案例实战(一)

该图谱与社区摘要和图谱机器学习输出一起在查询时用于增强提示。GraphRAG在回答上述两类问题时显示出显著的改进,展示了比以前应用于私有数据集的方法更高的智能的掌握能力。上述案例代码展示了微软研究的新方法GraphRAG的实现,通过利用大语言模型(LLM)基于输入语料库创建知识图谱,并在查询时结合社区摘要和图谱机器学习输出来增强提示。本地搜索方法通过将 AI 提取的知识图谱中的相关数据与原始文档的文本块相结合来生成答案。这种方法适用于需要了解文档中提到的特定实体的问题(例如,洋甘菊的治疗特性是什么?

2024-08-02 11:30:44 345

原创 大语言模型的微调策略

冻结大部分参数:在训练过程中冻结模型的大部分参数,只调整少量参数。这些参数可以是特定层的参数、添加的适应层参数(如适应性子网络)或其他选择性参数。训练过程:进行微调训练,只更新选定的参数。评估指标:选择适当的评估指标(如准确率、精确率、召回率、F1分数等)来评估模型的性能。数据收集:与全面微调类似,收集高质量的任务或领域特定的数据。训练设置:设定训练超参数,特别是需要调整的参数部分的学习率。数据清洗和标注:确保数据的质量和一致性,进行必要的标注。微调参数选择:根据评估结果,选择最适合调整的参数集。

2024-08-02 10:37:10 34

原创 GraphRAG:知识图谱+大模型

通过构建图模型的知识表达,将实体和关系之间的联系用图的形式展示出来,然后利用大语言模型(LLM)进行检索增强。他指出:“GPT-4常犯的错误,比如在推理能力上的不足,有时候完全跑偏,犯一些连六岁小孩都不会犯的错误,这些问题在GPT-5中都能得到解决。在乐观与谨慎之间,他透露了对GPT-5的信心,并表示这个新模型将在GPT-4的基础上有显著提升,不会遇到无法解决的问题。它不仅解决了传统方法的瓶颈,还提供了多种图探索方法,进一步提升了检索和生成的质量和多样性。在知识图谱上执行Graph RAG查询的检索引擎。

2024-08-01 19:30:00 56

原创 微软下一代RAG:GraphRAG

尽管GraphRAG已被评估其对提示和数据集成注入攻击的弹性,并已探查特定类型的危害,但用户配置GraphRAG所用的LLM可能会生成不适当或冒犯性的内容,这可能使其在没有具体用例和模型的附加缓解措施的情况下不适合在敏感环境中部署。GraphRAG旨在支持关键的信息发现和分析用例,这些用例中所需的信息分散在许多文档中,信息可能是嘈杂的,混杂着错误和/或虚假信息,或者用户希望回答的问题比底层数据能直接回答的问题更加抽象或具有主题性。对于独特的数据集,有效的索引依赖于正确识别领域特定的概念。

2024-08-01 09:42:58 48

原创 Prompt技巧篇:让chatgpt输出更好的答案

假设你想让 AI 总结一篇非常非常长的文章,并且按照特定格式给你总结,那你可以在文章前面明确输出的格式(为了不占用太多显示空间,我省略了正文内容,你可以在 OpenAI 的 Playground 看到完整案例)。据我的测试,主要还是 AI 不知道什么是指令,什么是待处理的内容,用符号分隔开来会更利于 AI 区分。在代码生成场景里,有一个小技巧,上面提到的案例,其 prompt 还可以继续优化,在 prompt 最后,增加一个代码的引导,告知 AI 我已经将条件描述完了,你可以写代码了。

2024-07-31 19:30:00 299

原创 谈LLM的数据工程,搞大模型等于洗数据?

在过去的一年中,关于大模型的研究揭示了一个不好的现象:许多人认为,只要向大模型输入大量数据即可,而不顾数据的噪声和质量。高质量的数据是模型成功的基础,而这些数据的获取和处理过程,需要大量的人工参与和精细化操作。广义上,研发大模型的数据工程不仅包括上述步骤,还涵盖了在增量预训练、SFT(特殊任务微调)、RAG(检索增强生成)和Prompt等不同阶段的数据处理和应用。狭义上,研发大模型的数据工程可以定义为:依据具体的研发场景与任务,采集相关研发数据,并生成模型预训练语料或微调数据集。

2024-07-31 10:51:12 40

原创 Prompt的 “注入” 攻击

Prompt注入攻击类似于传统的SQL注入攻击,通过在输入中嵌入恶意代码或指令,攻击者可以影响大语言模型的输出行为。具体来说,攻击者向模型提供精心设计的输入,诱导模型生成错误、误导或有害的响应,从而实现攻击目的。在 Web 安全领域,JavaScript 注入攻击是一种常见的威胁,攻击者通过在网页中注入恶意的 JavaScript 代码,来窃取用户信息、篡改网页内容或者执行其他恶意操作。例如,在一个问答系统中,用户输入的问题可能包含恶意指令,引导模型生成不当的回答。这可以减少恶意指令被模型接受的可能性。

2024-07-30 19:30:00 417

原创 GraphRAG:极大增强大模型问答、摘要、推理

LLM RAG结合了检索和生成两大功能,能够从外部知识库中检索相关信息,并生成高质量的文本回答,这种创新极大地拓展了LLM的应用范围和性能。所以,微软在RAG基础之上通过“Graph”图的方式,例如,文本中的实体,人物、地点、概念等,构建了超大的知识图谱,帮助大模型更好地捕捉文本中的复杂联系和交互,来增强其生成、检索等能力。知识更新灵活:大语言模型在训练后,其内部知识是静态的,而RAG架构允许模型在生成文本时实时检索最新的外部信息,从而保持知识的时效性和准确性。

2024-07-30 09:31:33 73

原创 现在LLM 的大小为什都设计成6/7B、13B和130B几个档次?

其中,在拓展购物消费体验方面,《措施》鼓励在确保透明度和严格监管的前提下,采用AI大模型、VR全景技术和数字人等前沿科技,拓宽电商直播边界。目前,常见的更大模型包括16B、34B、52B、56B、65B、70B、100B、130B、170B和220B等。将大语言模型设计成6/7B、13B和130B等几个档次,是在性能、计算资源、应用场景、训练调优、市场需求和研究实验等多方面综合考虑的结果。能下载到的模型普遍都是6/7B(小)、13B(中)、大(130B) 三种,比如ChatGLM 和Llama2 等。

2024-07-29 10:06:19 395

JAVA码头船只出行及配套货柜码放管理系统的设计与实现

JAVA码头船只出行及配套货柜码放管理系统的设计与实现 1 资源目录介绍 2 安装配置 3 前期准备 a、安装好MySQL数据库 b、安装配置java环境 c、安装配置好Tomcat 4 初始化数据库 a、创建数据库 b、执行数据库脚本文件,初始化数据库 5 部署系统 6 启动测试

2022-12-02

基于Java的银行排号系统的设计与实现

基于Java的银行排号系统的设计与实现 1 资源目录介绍 2 安装配置 3 前期准备 a、安装好MySQL数据库 b、安装配置java环境 c、安装配置好Tomcat 4 初始化数据库 a、创建数据库 b、执行数据库脚本文件,初始化数据库 5 部署系统 6 启动测试

2022-12-02

基于java的保险业务管理系统的设计与实现

基于java的保险业务管理系统的设计与实现 1. 源码 2. 数据库 3. 报告文档 4. 安装部署说明视频

2022-11-30

java程序设计超市积分管理系统源码和报告

java程序设计超市积分管理系统源码和报告 1. 源码 2. 报告 3. 设计思路 4. 安装部署说明

2022-11-30

100套BI大屏大数据可视化看板原型设计方案

100套BI大屏大数据可视化看板原型设计方案

2022-11-30

机器学习特征选择方法综述

机器学习特征选择方法综述

2022-11-30

Ganglia监控安装手册

1. 环境规划 2. 基础环境准备 3. Ganglia监控安装 4. 测试与应用

2022-11-30

Linux时间同步方式和操作方式

#设置ntp日志的path statsdir /var/log/ntp/ #设置ntp日志文件 logfile /var/log/ntp/ntp.log

2022-11-30

SMO算法学习最好的资料

SMO算法由Microsoft Research的John C. Platt在1998年提出,并成为最快的二次规划优化算法,特别针对线性SVM和数据稀疏时性能更优。关于SMO最好的资料就是他本人写的 《Sequential Minimal Optimization A Fast Algorithm for Training Support Vector Machines》了。

2022-11-30

R语言金融量化-上证指数某股票的模型分析收益率

1. 金融量化-上证指数某股票的模型分析收益率 2. R语言版本

2022-11-30

上证指数R语言统计分析

上证指数R语言统计分析

2022-11-30

R语言版本的词频统计wordcount

R语言版本的词频统计

2022-11-30

R语言版本的PM2.5分析AQI报告和代码

R语言版本的PM2.5分析AQI报告和代码

2022-11-30

利用机器学习预测2022年的世界杯冠军

1. 资源是一个完整的2022年世界杯预测的代码和数据集 2. 使用docker部署可视化训练系统 3. python 代码 4. 三步就可以完成模型训练和预测 5. readme包括完整的执行步骤说明

2022-11-30

Hbase优化-参数优化

本文主要是从HBase应用程序设计与开发的角度,总结几种常用的性能优化方法。 1. 表的设计 2. 写表操作 3. 读表操作 4. 数据计算

2022-11-28

HBase优化-系统架构

HBase性能调,从架构方面的调优。

2022-11-28

企业级大数据平台CDH详细搭建过程

1. CDH架构及安装 2. Hadoop安装 3. Hive安装 4. Hbase安装 5. Spark安装 6. Kafka安装 7. 其他安装测试

2022-11-28

python工程师面试题汇总

内容包括: 1. python基础知识面试 2. python高级知识 3. 设计模式 4. 常考算法

2022-11-26

精通 Java 必备的 100 道面试题

精通 Java 必备的 100 道面试题

2022-03-13

Linux运维必备工作常用shell脚本.pdf

自动化解放你的双手。

2021-12-12

Mysql完整的优化知识点.xmind

Mysql完整的优化知识点思维导图。

2021-09-19

中文自然语言处理中文分词训练语料

本次提供的中文汉语语料syj_trainCorpus_utf8.txt全网免费,转载需要注明出处,语料是作者通过爬取的短文本和网络上的预料处理、合并生成的。整个语料大小264M,包含1116903条数据,数据用空格隔开,可以用来训练分词模型。

2018-07-02

阿萨姆-机器学习实践_PPT

阿萨姆-机器学习实践_PPT,完整的介绍机器学习流程。实际问题抽象化 数据与特征工程 模型选择与评估 模型调试与提升 机器学习101

2018-03-21

TensorFlow数据读取

TensorFlow数据读取。

2017-08-17

Google Wide&&Deep Model 的keras实现

Google Wide&&Deep Model 的keras实现

2017-07-08

提问的艺术-让 ChatGPT 导出高质量答案.pdf

提问的艺术——让 ChatGPT 导出高质量答案.pdf 在 ChatGPT 中,为了获得最佳的文字产出,正确提示的方法就成了重点。 有了提示(Prompting)这份藏宝图,我们可以化身宝藏猎人,在语言模型这个宝藏迷宫里,开启 一个个宝箱——输出的语料文本具备相关性、准确度、高质量。 了解 ChatGPT 的功能、限制,至关重要。 该模型能够生成类人语料文本,如果缺乏合适的引导,我们有可能始终无法产生理想的输出。 此乃提示工程的用武之地,假设提供的指令清晰、具体,我们可以指导模型的输出,确保内容相 关。 提示公式(prompt formular)——提示的特定格式,一般包含 3 个主要元素: 任务(task):一份清晰简洁的陈述,提示要求模型生成的内容。 指令(instructions):在生成文本时,模型应该遵循什么。 角色(role):在生成文本时,模型应该扮演什么。

2023-04-29

产品经理Axure必备-自制中继器下拉选择框组件

产品经理Axure必备——自制中继器下拉选择框组件

2022-12-29

JAVAWEB校园二手平台项目.rar

JAVAWEB校园二手平台项目

2022-12-29

JAVA网络考试系统的设计与实现.rar

JAVA网络考试系统的设计与实现

2022-12-29

JAVA健康管理系统

JAVA健康管理系统 1 资源目录介绍 2 安装配置 3 前期准备 a、安装好MySQL数据库 b、安装配置java环境 c、安装配置好Tomcat 4 初始化数据库 a、创建数据库 b、执行数据库脚本文件,初始化数据库 5 部署系统 6 启动测试

2022-12-02

JAVA医院管理住院系统的研究与实现

JAVA医院管理住院系统的研究与实现 1 资源目录介绍 2 安装配置 3 前期准备 a、安装好MySQL数据库 b、安装配置java环境 c、安装配置好Tomcat 4 初始化数据库 a、创建数据库 b、执行数据库脚本文件,初始化数据库 5 部署系统 6 启动测试

2022-12-02

基于JAVA的医院在线挂号

基于JAVA的医院在线挂号 1 资源目录介绍 2 安装配置 3 前期准备 a、安装好MySQL数据库 b、安装配置java环境 c、安装配置好Tomcat 4 初始化数据库 a、创建数据库 b、执行数据库脚本文件,初始化数据库 5 部署系统 6 启动测试

2022-12-02

JAVA银行柜员业务绩效考核系统的设计与实现

JAVA银行柜员业务绩效考核系统的设计与实现 1 资源目录介绍 2 安装配置 3 前期准备 a、安装好MySQL数据库 b、安装配置java环境 c、安装配置好Tomcat 4 初始化数据库 a、创建数据库 b、执行数据库脚本文件,初始化数据库 5 部署系统 6 启动测试

2022-12-02

JAVA酒店管理系统的设计与实现

JAVA酒店管理系统的设计与实现 1 资源目录介绍 2 安装配置 3 前期准备 a、安装好MySQL数据库 b、安装配置java环境 c、安装配置好Tomcat 4 初始化数据库 a、创建数据库 b、执行数据库脚本文件,初始化数据库 5 部署系统 6 启动测试

2022-12-02

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除