- 博客(161)
- 收藏
- 关注
原创 文档图片智能识别
无论是复杂的多行列表格,还是简单的基础表格,都能准确识别,适用于财务报表处理、数据统计分析等需要处理表格数据的业务场景,大大提高数据录入和处理的效率。版面识别功能接口主要用于分析图片中文档的版面结构,识别出文档中的标题、段落、列表、图表等不同类型的内容区域,并返回各区域的位置、类型等信息。通过该接口,能够快速了解文档的整体布局,为后续的内容处理和分析提供基础,适用于电子文档整理、文档自动化处理等场景。项目分别以python和java实现,可以sdk形式调用或独立离线和在线部署,
2025-06-12 10:34:46
198
原创 实现文档图片漂白小工具
实现文档图片漂白小工具。功能主要有:1.选择单张或多张图片进行漂白;2.可对漂白后的图片进行保存。二.单张图片进行漂白。三.多张图片进行漂白。
2025-05-29 17:23:06
150
原创 企业合同审核系统
实现企业合同审核系统。支持txt、word以及pdf格式文件的合同审核。功能主要有:1.审核功能主要有合同条款提取;审查报告以及准确性检查;2.分析结果可保存为txt、markdown或者html格式,便于查看。七.合同审核综合报告的保存,可保存为txt、markdown以及html格式。一.主界面,可上传txt、word及pdf格式合同文件。六.合同分析的准确性检查。二.合同关键条款提取。
2025-05-20 16:13:17
113
原创 文档比对工具的实现
文档内容比对桌面工具。软件名为“番石榴文档比对工具”。完全离线,无需联网,单机免安装运行。2.txt文件比对;3.docx文件比对;4.excel文件比对。三.文件比对(txt、docx以及excel文件)
2025-05-20 09:06:16
132
原创 OCR文字识别桌面版软件(二)
的升级,实现了界面重构,实现了批量图片的识别以及保存。软件名为“番石榴OCR文字识别工具”。完全离线,无需联网,单机免安装运行。主要功能是选择图片;保存结果为txt文件。另外图片的预览功能增加了通过鼠标放大缩小以及点击拖动功能。批量上传需要识别的图片,会出现在左侧列表栏中,可以点击右侧。,可以识别所有图片文字,点击左侧相应图片,右侧。发布于 2025-05-16 16:54・江苏。,会将所有图片识别的结果保存为一个txt文件。进行放大缩小以及拖动查看图片。会出现相应的识别结果。
2025-05-16 16:58:32
150
原创 实现OCR文字识别桌面版软件
这2天业余时间,实现了一款桌面版OCR文字识别软件工具,名字是“番石榴OCR识别工具”。完全离线,无需联网,单机免安装运行。主要功能是选择图片;保存结果可以直接保存为txt文件。
2025-05-16 09:59:23
168
原创 利用deepseek进行智能写作与文章总结
完整项目:https://github.com/jiangnanboy/ai_writer_summary/智能写作:智能总结:需要注册deepseek账号,利用deepseek进行分析与生成web页面利用streamlit,见web_ui.pyImages 智能写作界面:
2025-04-28 22:29:57
198
原创 多智能体架构
有时候,只有一个supervisor来做所有的决定,并决定调用哪个agent,agent可能会开始表现不佳,因为它可能处理太多的事情,并且需要是处理方面的专家。agent开始在工具选择上做出糟糕的决定。我们可以给我们在 Boss上欣赏的人发信息,或者某些社交软件上互发信息,这里的概念是一样的,但是现在有了agent,每个agent都可以和整个集合中的任何其他agent交谈。我们在搭建多agent时,随着需求越来越大,越来越多的工具进入我们的系统,而 agent 拥有多个工具,有时多达 10 多个工具。
2025-04-23 13:36:25
308
原创 理解提示工程与 AI 对话
理解提示工程与对话如果我们想知道什么是提示工程,想象一下我们有一个超级聪明的助手,但这个助手需要非常明确的指示才能做我们想做的事情。这有点像使用大型语言模型(LLM),这是许多 AI 工具背后的技术。提示工程基本上是给这些LLM正确的指示或提示的艺术和科学,这样他们就能理解我们需要什么,并给我们准确和有用的结果。可以把提示想象成我们给的输入,比如一个问题或一个请求。任何人都可以写提示,就像我们可以向朋友提问一样。
2025-04-23 10:15:36
754
原创 deepseek中文知识图谱生成
利用大模型deepseek对中文文本、图片以及pdf中的非结构化文本内容进行分析,并提取主-谓-宾(SPO)三元组的知识形式,以及将这些关系可视化为知识图谱,完整项目见。这里利用deepseek进行相关分析。
2025-04-16 22:19:05
332
原创 如何估计llm的GPU显存?
随着 GPT、 Llama 和 Deepseek等大型 llm 的兴起,人工智能从业者面临的最大挑战之一是弄清楚他们需要多少 GPU 显存来有效地为这些模型服务。这里通过一个简单有效的公式来估计LLM 服务所需的GPU 显存。使用上面的简单公式,我们可以估计不同精度级别所需的 VRAM,并相应地优化部署。如果我们正在处理像 Llama 70B 这样的大型模型,量化和并行是较好的选择,可以保持 GPU 成本可控。1. 使用量化:将我们的模型转换为 8 位或 4 位,以减少显存占用。
2025-04-01 10:57:41
847
原创 模型上下文协议(MCP)简介
MCP 为更加互联的 AI 生态系统奠定了基础,使开发人员能够以最小的摩擦创建更智能,更强大的 AI 系统。随着越来越多的采用和不断的创新,MCP 有可能成为 AI 工具集成的行业标准,就像 TCP/IP 在网络中的作用一样。通过提供标准化的开源框架,MCP 简化了将 llm 连接到外部数据源、工具和工作流的过程,消除了复杂的一次性集成的需要。由 Anthropic 开发的 MCP 是开源的,这意味着任何人都可以使用和改进它,它旨在通过访问实时数据帮助 AI 给出更好、更相关的答案。
2025-03-28 14:57:39
799
原创 利用大模型LLM生成训练数据
这里假设一家海嘉物流公司,此公司需做一个关于本公司物流的问答机器人,需要判断用户的查询语句是否与本公司物流相关,需要训练数据进行分类,故利用deepseek进行生成与审核,免于无数据和标注的烦恼。
2025-03-27 08:57:48
167
原创 利用LLM实现chatexcel数据分析
利用周末时间做了一个chatexcel应用,采用自然语言对话形式,对excel表格数据进行分析,结果可返回文本,表格和图表形式。
2025-03-20 14:35:25
271
原创 代理 RAG:自主 AI 代理如何改变信息检索
例如,给定一个用户查询,系统生成该查询的向量embedding,在知识库中找到类似的向量(文档),然后将这些检索到的片段与查询一起送到 LLM 中,以生成上下文感知的答案。,尽管它不是唯一的,也是最好的,市场上有很多,这里将在以后的博客中使用它们,但让这里从这个例子(一个用于构建 LLM 应用程序的开源框架)开始,以说明如何使用检索工具构建代理,同样,你可以使用其他库实现类似的想法,或者从头开始。在一个普通的 RAG 系统中(如上所示),这个过程是直接的和反应性的:对于每个查询,检索一次并生成。
2025-03-20 14:06:45
605
原创 智能客服支持助手
customer_support_assistant https://github.com/jiangnanboy/customer_support_assistant1.简介customer_support_assistant是智能客服支持助手项目,利用LLM对Query的理解,去调用相应函数,实现智能客服功能。本项目具体的功能为根据用户的查询,利用deepseek去理解查询并返回所需调用的函数和参数,根据这些返回信息,调用本地函数,实现相应客服功能。本项目实现的是一个用户订单客服智能助手。2.项目LLM
2025-03-05 21:21:21
247
原创 pdf多模态rag问答
本项目对PDF文件进行解析,对其中的图、表以及文本进行Embedding化,并进行存储。根据用户query进行检索,将检索后的结果(包括图表和文本)和query输送到多模态LLM,pdf_multimodal_rag 项目主要包含pdf解析,表格检测,文本和图表的embedding化,向量存储,向量检索,LLM问答等部分。pdf multimodal rag 【pdf多模态rag问答】从而得到最终分析结果。
2025-02-26 23:23:52
867
原创 人工智能Agent提示工程的六个关键要素
多个版本的屏幕截图,如干净的和注释的版本,有助于减少潜在的障碍。6.补充信息:额外的上下文,例如来自代理记忆的历史数据或来自外部来源的知识,如RAG(检索-增强生成),可以改进代理的决策过程。2.Agent指令:清晰而详细的指令指导代理的操作,指定代理的角色、要遵循的规则和预期的输出。这种提示工程的系统方法最大限度地提高了llm驱动的GUI代理的有效性,使它们能够无缝地处理复杂的用户请求。一个构造良好的提示封装了所有必要的信息,确保AI Agent生成准确的响应并有效地执行任务。
2024-12-27 15:40:41
293
原创 小模型在LLM时代的作用
然而,由于 SMs 的简单性、较低的成本和可访问性,在受限环境或需要高度可解释性的任务中,SMs 通常优于LLM。LLM需要大量的计算资源进行训练和推理,导致高成本和延迟,这使得它们不太适合实时应用,如信息检索,或在资源有限的环境中,如边缘设备。相比之下,较小的模型往往更专业化,研究表明,在特定领域的数据集上对它们进行微调,有时可以在特定任务上比一般LLM获得更好的性能。相比之下,较小的模型需要更少的训练数据和计算能力,在提供有竞争力的性能的同时大大降低了资源需求。
2024-09-28 22:48:22
757
原创 小模型(SLM)的效率、性能和潜力
例如,最新的谷歌和三星智能手机内置了大型语言模型(LLM)服务,如 Gemini Nano,它允许第三方应用程序通过提示和模块化集成来访问 LLM 功能。同样,iphone 和 ipad 上最新的 iOS 系统包括一个与操作系统紧密集成的设备上基础模型,既增强了性能,又增强了隐私。通过在个人设备上启用人工智能功能,slm 旨在使强大技术的使用民主化,使人们能够随时随地使用智能系统,而无需依赖基于云的资源。一般来说,数据的质量比数据的数量或特定的模型架构更重要。在最近的研究中得到了越来越多的关注。
2024-09-28 22:47:48
494
原创 如果没有真实数据,如何评估 RAG
下面,我们将介绍三种有效的策略,从零开始创建 ground truth 数据集的方法,当你确实拥有数据集时可以用来评估的指标,以及可以帮助你完成这一过程的现有框架。通过将数据分解成这样的特定主题,你不仅可以为训练创造更多的数据点,还可以使你的数据集更加精确和集中。它包括评估检索和生成的指标,提供了一种全面的方法来衡量您的系统在每个步骤中的表现。较高的阈值(如 0.8 或更高)意味着有更严格的要求,而较低的阈值将带来更多的数据,这可能是有帮助的,也可能只是嘈杂的。你可以利用这些反馈来构建你自己的迷你数据集。
2024-09-26 21:20:56
894
原创 AgentLite 一个轻量级LLM Agent框架
虽然 Autogen 已经成功地构建了 LLM 代理,但它的代理接口有固定的推理类型,这使得它很难适应其他研究任务。该研究还指出,LangChain 是一个流行的库,用于开发使用大型语言模型(llm)的应用程序,提供内置工具来创建各种代理类型。在其代理创建过程中可能是复杂或僵化的,它简化了任务,为研究人员开发新的代理推理类型和架构提供了灵活性和定制性。所有动作及其产生的观察结果都立即保存在memory中,允许代理在正在进行的任务期间引用其先前的决策。,这是一个旨在构建 AI 代理的开源框架。
2024-09-25 22:17:23
504
原创 校对:一键修复所有错误
接下来,在一个合成数据集上对模型进行微调。校对是 Gboard 的一项新功能,它使用服务器端大型语言模型(LLM),只需点击一下就可以提供无缝的句子级和段落级更正,减轻了那些喜欢专注于打字而不是检查已提交单词的快速打字者的痛点。使用大型语言模型(LLM)过滤噪声数据,并使用精心设计的指令,以避免污染模型。为了优化模型,使用了近端策略优化(PPO),其中涉及到 KL 散度,以帮助模型保留恢复原始文本的能力。给定三个元素,输入(损坏的文本),答案(从模型中预测的候选人)和目标(基本事实),我们提出以下指标。
2024-09-25 22:16:47
621
原创 21 种 AI 小模型
小型语言模型通过为广泛的应用程序提供高效、可扩展和高性能的解决方案,正在改变 AI 的格局。它们紧凑的尺寸和减少的资源需求使其成为在计算能力和内存有限的环境中部署的理想选择。许多 slm 是通过知识蒸馏创建的,在这个过程中,较小的模型学习模仿较大模型的行为,保留了原始模型的大部分性能。许多小的语言模型都是 BERT(来自transformer的双向编码器表示)的变体,针对效率和速度进行了优化。随着新技术和体系结构的开发,slm 的性能不断提高,缩小了它们与更大模型之间的差距。
2024-09-23 22:54:06
2745
原创 小语言模型:为业务需求定制AI
通过提供量身定制的、具有成本效益的解决方案,slm使公司能够利用 AI 的力量,而无需大型模型的复杂性和资源需求。无论您是希望改善患者护理的医疗保健提供商、旨在增强客户体验的零售商,还是寻求市场洞察力的企业,slm 都能提供在日益数字化的世界中保持竞争力所需的精度和效率。那些希望利用人工智能的企业来说是一个明智的举措,同时又不需要高昂的价格和大型模型的复杂性。想象一个技艺高超的工匠,他对自己的手艺了如指掌,但并不试图掌握每一项可能的技能——slm 是为了在自己的领域中脱颖而出而设计的。
2024-09-22 19:42:23
1127
原创 教小模型进行推理
然而,较小的 lm 的推理能力在 CoT 提示下并没有提高,大多产生非逻辑的CoT。值得注意的是,CoT 提示甚至降低了小于 100 亿个参数的模型的准。这项研究又是一个很好的例子,证明了快速工程技术是有效的,正在进入语言模型训练。研究表明,这种提示显著提高了跨常识、符号和数学推理数据集的大型语言模型(llm)的任务准确性。谷歌断言,推理能力只出现在具有至少数百亿参数的模型中。这也是 LLM 用于生成或增强小型语言模型的训练数据的另一个例子。众所周知,思维链提示提高了大型语言模型的推理能力。
2024-09-16 22:07:26
329
原创 引入语义标签过滤:利用标签相似度增强检索
然后我们可以对得到的矩阵进行转置,并对其进行压缩:我们将对可用的标签索引使用 1 和 0 来初始编码我们的查询/样本,从而得到与我们的初始矩阵(53,300)长度相同的初始向量。目前,我们缺乏适当的数学验证(乍一看,从 M 中平均相似度得分已经显示出非常有希望的结果,但需要进一步的研究来获得有证据支持的客观指标)。我们可以看到,传统搜索可能(没有额外的规则,样本是根据所有标签的可用性进行过滤的,而不是排序的)返回一个标签数量较多的样本,但其中许多标签可能不相关。的稀疏矩阵(相当不实用的壮举)。
2024-09-15 23:08:05
977
原创 RAG 幻觉检测方法
通过整合这些方法,RAG 系统可以实现更高的可靠性,并确保更准确和可信的响应。在一个广为流传的案例中,一家大型航空公司(加拿大航空公司)输掉了一场官司,因为他们的 RAG 聊天机器人对他们的退款政策的重要细节产生了幻觉。中的每个实例都包含一个检索到的大型明文财务信息上下文,以及一个关于该信息的问题,例如:卡夫亨氏(Kraft Heinz) 2015 财年的净营运资金是多少?精度的错误答案(RAGAS 忠实度的平均精度为 0.762,幻觉度量的平均精度为 0.761,自我评估的平均精度为 0.702)。
2024-09-13 21:36:44
1286
原创 EfficientRAG:多跳问题回答的高效检索器
中,作者介绍了一种高效的多跳问答检索器效率 EfficientRAG。EfficientRAG 迭代地生成新的查询,而不需要在每次迭代中调用 LLM,并过滤掉不相关的信息。LMs,包括以前 10 个检索块为知识的朴素 RAG 为基线,包括高级迭代 RAG 方法,如 Iter-RetGen[2]和 SelfAsk [3]调用、迭代、延迟和 GPU 利用率四个指标。3.69,这些结果令人印象深刻。回答查询的有用信息。
2024-09-12 22:18:28
516
原创 pediatrics_llm_qa:儿科问诊小模型
预训练模型是基于大量语料库和算法模型进行训练的,并且在训练过程中可能存在偏差、错误和不完整的信息。因此,本项目提供的预训练模型仅供参考和研究使用,并不能保证其准确性和可靠性。使用预训练模型产生的结果可能存在误差和偏差,不能用于实际应用或决策。本项目不对使用预训练模型所产生的结果承担任何责任,也不对因使用预训练模型所产生的任何损失承担责任。使用者在使用预训练模型时应自行承担风险并进行自我验证。3.下载模型参数并运行(要求单卡GPU >= 15G或者CPU)
2024-09-12 21:40:48
320
原创 利用投影技术增强RAG文档检索的多样性
然而,这种方法的一个缺点是它可以返回高度相似的文档,从而导致冗余和较少的响应多样 性。• retrieve_with_diversity 函数首先检索最相似的文档,然后通过减去当前最佳文档的投影来调整查询向量。当您需要在检索上下文中保持多样性时,这种基于投影的技术可以成为 RAG 系统的一个有价值的补充。即使所有检索到的文档仍然是相关的,多样性方法也可以确保它们捕获查询主题的不同方面。该技术涉及投影出先前检索文档的组件,鼓励检索过程选择内容更多样 化的文档。• 有一组文档向量和一个查询向量。
2024-09-10 21:29:36
262
原创 llm_security(大模型内容安全)
利用分类法和敏感词检测法对生成式大模型的输入和输出内容进行安全检测,尽早识别风险内容。使用【ServiceApplication.java】使用者可自行训练bert类相关模型,用本项目加载即可。本项目采用java, springboot实现。
2024-09-10 20:50:14
387
原创 语义分块:改进 AI 信息检索
语义分块是一种基于内容和上下文将文本或数据划分为有意义的片段的方法,而 不是任意的字数或字符限制。这些限制可能会影响人工智能生成反应的准确性和相关性,特别是在处理复杂或 微妙的信息时。-与先进的 AI 模型集成:增强语义分块和前沿语言模型之间的协同作用。这些改进可以产生更可靠的 AI 系统,能够更精确地处理细微的查询。3.上下文嵌入:每个块在更广泛的文档中保留有关其上下文的信息。3.增强对复杂信息的处理能力:特别适用于长篇内容和复杂的主题。-领域适应:有效的分块策略可能因不同的领域和内容类型而异。
2024-09-05 20:48:59
410
原创 时间序列分析的代理检索-增强生成
预训练的小型语言模型,如 Google 的 Gemma 和 Meta 的 lama-3,受到 8K token 上下文窗口的限制,这阻碍了它们处理长输入序列的能力。此外,直接 DPO 用于通过随机屏蔽 50%的 数据并执行二元分类来预测正确的特定于任务的结果,从而将 SLM 预测导向更 可靠的特定于任务的结果。这些提示与输入数据相结合,以改进预测,使模型能够适应和利用过去的 知识,在不同的数据集上获得更好的性能。模块化的多代理 RAG 方法提供了灵活性,并在各种时间序列 任务中实现了最先进的性能。
2024-09-04 21:46:35
975
原创 支持大模型的小模型
因此,微软研究院提出了一个框架,利用小语言模型(SLM)作为初始检测器, LLM 作为约束推理器,为任何检测到的幻觉生成详细的解释。• 使用小型语言模型是有利的,因为它允许使用开源模型,从而降低了成 本,提供了托管灵活性,并提供了其他好处。检测到幻觉:如果 SLM 检测到幻觉,基于 llm 的约束推理器会介入来解释 SLM 的决定。• 本研究中呈现的架构提供了对未来的一瞥,展示了一种更加协调的方法, 其中多个模型协同工作。• 它还增加了发现、观察和解释的元素,提供了对幻觉检测有效性的见解。
2024-09-04 21:07:02
339
原创 GNN-RAG:以RAG形式将 llm 的语言能力与 gnns 推理进行联合
• GNN-RAG 显著提高了弱 LLMs(如 Alpaca-7B 和 Flan-T5-xl)的 KGQA 性。• 作者训练了两个不同的 GNNs,一个深 gnn (L = 3)和一个浅 gnn (L = 1),的多跳信息(%Ans)。• 作者提出了一种 RA 技术(GNN-RAG +RA),它将 GNN 寻回器与基于 llm。• 以上结果表明,基于 gnn 的检索比基于 LLM 的检索更高效(#LLM Calls,• 下表给出了使用GNN-RAG或LLM-based检索器(RoG和ToG)的各种llm。
2024-09-02 21:56:27
1676
原创 GraphRAG在结构化知识和人工智能之间架起了桥梁
GraphRAG,即基于图的检索增强生成,是一个复杂的 AI 框架,它将图结构的 优势与语言模型结合在一起。硬件方面的进步,比如更强大的 gpu 和 tpu,有望 支持更复杂图形结构的开发。此外,集成更高级的语言模型,如基于变压器的语 言模型,可以进一步提高信息检索和生成的精度和相关性。3. 可伸缩性和灵活性:GraphRAG 的基于图的方法在表示数据中的复杂关系 和层次结构方面提供了更大的灵活性,使其更适合各种应用程序。GraphRAG 的基于图的方法更适合于复杂的关系数据,比 如知识库或社会网络。
2024-09-02 21:31:22
796
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人