
垂域模型
文章平均质量分 89
deepdata_cn
极深数据,深耕数据行业。
展开
-
大模型与知识工程
大模型不仅仅是基础技术的差距,还涉及知识工程的差距。什么是知识?有用的数据就是知识。数据的数量多并不意味着其价值高,关键在于数据的质量。训练大模型时,并不是数据越多越好,很多低质量或垃圾数据会使得大模型变得“愚蠢”。高质量的数据来源,如高水平的学术期刊、论文、课本和书籍,才是形成知识的主力。越是难以阅读和理解的内容,越能提供丰富的知识。没有高质量的知识,就无法有效地训练大模型,也无法进行知识对齐。在单位内部,知识对齐是非常重要的,它确保大模型不会无中生有,不会杜撰或产生幻觉。因此,知识管理至关重要。原创 2025-05-17 07:45:00 · 1347 阅读 · 0 评论 -
联邦大小模型协作学习
在数字化浪潮中,数据已然成为驱动各行业发展的核心燃料。然而,随着数据敏感性增强以及隐私法规趋严,传统集中式机器学习面临诸多挑战。联邦学习这一创新性的分布式机器学习方法应运而生,它允许众多参与者,比如各类设备或者不同机构,在无需共享自身数据的情况下,携手共同训练一个全局模型。这种独特的技术模式,在隐私保护、数据安全备受重视,以及受法律严格限制数据交换的场景中,展现出了无可比拟的适用性。原创 2025-04-17 07:30:00 · 1048 阅读 · 0 评论 -
AI Infra大模型基础设施
在当今数字化浪潮中,人工智能(AI)已成为推动各行业变革的核心力量。而在AI的蓬勃发展进程里,大模型凭借其强大的认知和处理能力崭露头角。从自然语言处理领域的GPT系列到计算机视觉中的各类大型模型,它们在理解、生成和预测复杂信息方面展现出了前所未有的性能。但这一切的背后,离不开一个关键的支撑体系——AI Infra(Artificial Intelligence Infrastructure),即人工智能基础设施。原创 2025-03-31 07:45:00 · 1244 阅读 · 0 评论 -
代码大模型与软件行业变革
近年来,人工智能(AI)技术的快速发展正在深刻改变各个行业。其中,代码大模型(Code Large Language Models, Code LLMs)作为自然语言处理(NLP)领域的一个重要分支,正在对软件开发行业产生深远影响。这些模型通过学习海量代码数据,能够生成高质量的代码片段、优化现有代码、甚至完成复杂的编程任务。原创 2025-03-30 07:45:00 · 778 阅读 · 0 评论 -
大模型应用框架和工具介绍
大模型通常指参数量达到数十亿甚至数千亿的深度学习模型,如GPT系列、BERT、T5、CLIP等。这些模型具有以下特点:● 高性能:在多种任务上表现出色,具备强大的泛化能力。● 高复杂性:需要大量的计算资源和存储空间。● 高成本:训练和推理过程对硬件依赖较高。● 多功能性:通过微调或提示工程(Prompt Engineering),可以应用于多种下游任务。因此,大模型的实际应用需要借助专门的框架和工具来简化开发流程并提升效率。原创 2025-03-29 07:30:00 · 1852 阅读 · 0 评论 -
大语言模型的技术演进:回顾、现状与展望
在数字化时代浪潮的推动下,自然语言处理(NLP)领域正经历着前所未有的变革,其中大语言模型(Large Language Models, LLMs)无疑是最为耀眼的明星。近年来,大语言模型取得了令人瞩目的显著进展,宛如一颗在技术苍穹中冉冉升起的新星,迅速照亮了自然语言处理的诸多应用场景。这些模型展现出了令人惊叹的能力,它们能够生成逻辑连贯、语法正确且富有语义内涵的高质量文本,无论是撰写新闻报道、创作故事小说,还是生成专业领域的文档,都能应对自如;原创 2025-03-27 07:45:00 · 1620 阅读 · 0 评论 -
DeepSeek生态集成资源库(Awesome DeepSeek Integrations)
Awesome DeepSeek Integrations是DeepSeek 生态的开源集成宝库,汇集了与 DeepSeek AI 模型(如 DeepSeek-V3、R1、Coder 等)无缝集成的工具和应用,覆盖代码助手、翻译、知识管理等多种场景,支持多语言和多种开发平台。作为一站式集成资源库,是连接开发者、研究人员以及企业与 DeepSeek 生态系统的桥梁,降低了AI 技术开发门槛,加速 AI 在各领域的落地应用。原创 2025-03-14 07:30:00 · 2792 阅读 · 0 评论 -
LLM大模型本地化部署的优势和挑战
2.1 什么是LLM大模型?LLM是基于深度学习的大规模语言模型,通常包含数十亿甚至数千亿参数。这些模型通过海量数据训练,具备强大的语言理解与生成能力,可以完成诸如文本分类、翻译、摘要生成、对话系统等任务。2.2 为什么选择本地部署?● 数据隐私与安全性:敏感数据无需上传至云端,确保信息不外泄。● 定制化需求:针对特定行业或领域进行微调,满足个性化需求。● 实时性与性能优化:本地部署可以减少网络延迟,提升响应速度。● 成本控制:避免长期依赖云服务产生的高额费用。原创 2025-03-05 07:40:29 · 1926 阅读 · 0 评论 -
研究工作流自动化语言模型(Elicit)
Elicit是利用语言模型帮助用户实现研究工作流自动化的平台。2018年,一群对自然语言处理和机器学习充满热情的研究人员和工程师创立了Elicit,旨在打造一个能革新研究方式的平台,利用语言模型的力量简化和自动化研究工作流程。在这期间,Elicit团队专注于精炼语言模型,构建一个用户友好的平台,使其能服务于广泛的行业领域,所有权主要在创始团队手中。2021年起,Elicit凭借其创新技术在市场上崭露头角,吸引了投资者和战略合作伙伴的目光,获得多轮融资,得以扩大运营规模,拓展用户群体。原创 2025-03-02 07:45:00 · 1361 阅读 · 0 评论 -
检索增强型语言模型(OpenScholar by Allen AI)
外接4500万篇论文的数据库,采用检索增强的方法,通过数据存储、bi-encoder检索器、cross-encoder重排序器等组件,从大量文献中筛选出与输入查询语义相关的段落,为LLM生成关键词提供丰富的学术文献依据。由艾伦人工智能研究所(AI2)和华盛顿大学共同开发。面对全球科研论文数量爆炸式增长,科研人员面临严重信息过载,而现有通用AI工具如ChatGPT等在处理科学问题时存在生成幻觉、成本高、参数规模大等缺陷。原创 2025-03-02 07:30:00 · 921 阅读 · 0 评论 -
LLM 增强生成平台(Arguflow)
提供语义搜索和大模型检索增强生成(RAG)功能,能深入理解文本含义,为LLM提供精确的搜索结果,用户可在自有数据集上实现智能搜索和生成,帮助LLM获取更准确的相关信息来生成关键词。采用先进的自然语言处理技术,如集成了OpenAI或Jina的嵌入模型和Qdrant,实现语义向量搜索,结合高效的数据库管理与API接口,对输入数据能高度理解并快速响应查询。原创 2025-03-01 09:41:53 · 658 阅读 · 0 评论 -
人工智能推理模型(S1-32B)超越DeepSeek?
S1模型是由斯坦福大学和华盛顿大学的研究团队在李飞飞教授的领衔下开发的人工智能推理模型。从2000年李飞飞进入加州理工学院攻读研究生起,就一直从事人工智能研究,在计算机视觉领域创立了拥有1500万张图片的ImageNet数据库,为人工智能计算机视觉研究奠定了基础,也积累了深厚的人工智能技术理论和实践经验。论文地址:https://arxiv.org/pdf/2501.19393。原创 2025-02-16 07:45:00 · 801 阅读 · 0 评论 -
LLM大语言模型的市场竞争格局
随着人工智能技术的飞速发展,大型语言模型(Large Language Models, LLMs)已经成为AI领域的一个重要组成部分。这些模型能够处理复杂的自然语言任务,如文本生成、翻译、问答等,极大地促进了人机交互的进步。原创 2025-02-12 08:00:00 · 823 阅读 · 0 评论 -
主流LLM大语言模型的商业模式与盈利状况
随着人工智能技术的飞速发展,特别是自然语言处理(NLP)领域的突破,大型语言模型(Large Language Models, LLMs)已经成为科技界炙手可热的话题之一。这些模型能够执行广泛的任务,从文本生成到对话理解等,为众多行业提供了前所未有的机会。然而,开发和维护这样复杂的系统需要巨大的投入,因此探索有效的商业模式对于确保其可持续发展至关重要。原创 2025-02-12 07:45:00 · 1698 阅读 · 0 评论 -
大语言模型的语境应用
大语言模型的语境指的是在语言交互过程中,围绕特定文本或话语所存在的各种相关信息,这些信息能够帮助模型更好地理解和生成语言,使语言表达和理解更加准确、连贯和合理。原创 2025-02-12 07:30:00 · 1405 阅读 · 0 评论 -
LLM大语言模型的组成部分
LLM(Large Language Model)大语言模型由输入层将文本转为向量,基于Transformer架构的编码器提取语义与上下文信息,解码器据此生成输出,输出层经Softmax和搜索策略将向量转为最终文本;通过在大规模无监督语料上预训练学习通用知识,再针对具体任务用有标注数据微调;记忆与缓存机制处理长序列并提高效率,评估模块用困惑度等指标衡量性能,优化模块据此调整超参数、改进结构。原创 2025-02-11 07:45:00 · 870 阅读 · 0 评论 -
搜索引擎与大语言模型的融合趋势
有一种观点是大语言模型会取代传统搜索引擎。综合分析得出大语言模型不太可能完全取代搜索引擎,二者各有特点和局限性,更可能是相互融合、协同发展。大语言模型的知识基于预训练数据,可能存在过时、不准确的情况,难以提供如搜索引擎般实时更新的信息,对于需要获取最新资讯、动态信息的用户需求无法很好满足。如金融市场的实时行情、突发新闻事件等,搜索引擎能快速索引到最新网页内容,而大语言模型可能无法及时更新知识。搜索引擎可返回大量不同来源的网页链接,用户能通过多来源信息交叉验证,确保信息可靠性。原创 2025-02-10 07:45:00 · 1142 阅读 · 0 评论 -
大模型推理能力的发展
大语言模型的推理能力,简单来说,就是让模型像人一样“动脑子思考”,根据已经知道的信息来得出新的结论或者做出合理的判断。大语言模型首先要能理解输入给它的各种信息,就像我们看一篇文章、听别人说话要明白是什么意思一样。比如你给它一段关于动物习性的描述,它得知道说的是哪种动物,有什么特点等。然后,它还要能对这些信息进行分析,把重要的部分挑出来,就像我们读完一篇文章后总结重点一样。原创 2025-02-10 07:30:00 · 846 阅读 · 0 评论 -
大模型稀疏动态架构
DeepSeek应用稀疏动态架构(Sparse Dynamic Architecture)是其大模型技术的核心创新点。大模型稀疏动态架构是一种用于构建大规模人工智能模型的先进架构,整体提高了模型的效率、灵活性和性能。原创 2025-02-08 07:45:00 · 1256 阅读 · 0 评论 -
OpenAI的“推理”模型o3-mini
OpenAI于2024年12月20日发布了人工智能“推理”模型o3-mini,并于2025年2月1日在ChatGPT和API中正式上线。人工智能 “推理” 模型是一类能够模拟人类推理过程,对输入信息进行分析、判断和决策的智能模型。o3-mini模型会展开事实核查,可规避一些常见的模型陷阱,但会产生响应延迟,通常为几秒到几分钟。使用 “私人思想链” 进行 “思考”,能在响应前暂停,考虑相关提示并解释推理过程,最终总结出最准确的答案。原创 2025-02-08 07:30:00 · 831 阅读 · 0 评论 -
什么是知识蒸馏技术?
知识蒸馏(Knowledge Distillation)是一种模型压缩和加速技术,旨在将大型模型(通常称为教师模型)所学到的知识迁移到小型模型(通常称为学生模型)中,从而让小型模型在减少计算资源消耗和推理时间的同时,尽可能达到接近大型模型的性能。具有很好的成本效益,在实际应用中有助于降低计算资源需求和部署成本。原创 2025-02-01 07:45:00 · 1162 阅读 · 0 评论 -
知识蒸馏(Knowledge Distillation)的发展历程
知识蒸馏(Knowledge Distillation)是一种在机器学习领域广泛应用的技术,主要用于将大型模型(教师模型)所学到的知识迁移到小型模型(学生模型)中,使得小型模型在计算资源和存储需求降低的情况下,仍能达到接近大型模型的性能。知识蒸馏自提出以来,不断发展和演进,在深度学习领域发挥着日益重要的作用。原创 2025-02-01 07:30:00 · 901 阅读 · 0 评论 -
语言模型集成框架(Haystack)
Haystack提供模块化架构,支持多种文档存储方案,可与广泛使用的语言模型无缝集成,具有可扩展架构以处理海量文档,还拥有简洁易用的API,便于构建自定义的NLP工作流。适用于构建端到端的问答和搜索系统,特别适合需要处理大量文档和与多种语言模型集成的场景。其主要目标是帮助开发者更方便地构建强大的NLP应用程序,如问答系统、语义搜索和文档摘要等。它提供了一个灵活的框架,能够将不同的NLP组件(如语言模型、文档存储、检索算法等)组合在一起。原创 2025-01-27 07:45:00 · 1017 阅读 · 0 评论 -
自然语言生成可视化图表(VizGPT)
VizGPT是一个创新性的开源项目,它的核心在于构建了自然语言处理和数据可视化之间的桥梁。通过利用先进的自然语言处理技术,它能够理解用户输入的文本指令,并将这些指令转换为对应的可视化图表,帮助用户更直观地理解数据和信息。VizGPT通过聊天界面轻松创建和调整图表。利用GPT模型的强大功能,允许用户使用自然语言描述他们想要的图表,根据上下文逐步编辑可视化,无需再为理解复杂查询语法而头疼。原创 2025-01-19 08:00:00 · 1034 阅读 · 2 评论 -
开源语言模型(TigerBot)
TigerBot是由虎博科技开发的一系列开源多语言大规模语言模型, 2023年5月首次发布,推出了7B和180B两个版本的基础模型和对话模型。原创 2025-01-19 07:45:00 · 1338 阅读 · 0 评论 -
Claude 3.5 Sonnet与DeepSeek V3的比较分析
随着人工智能技术的迅猛发展,大型语言模型在自然语言处理领域扮演着越来越重要的角色。这些模型不仅能够理解和生成人类语言,还在多个应用场景中展示了卓越的能力。以下将对两个具有代表性的开源语言模型——Claude 3.5 Sonnet和DeepSeek V3进行深入比较分析。两者都在不同方面展现了出色的能力,并且各自有其独特的优势。原创 2025-01-19 07:30:00 · 1005 阅读 · 0 评论 -
垂直行业如何选型LLM
通用大模型的知识覆盖范围广泛,涵盖了多个领域如科学、技术、文化、娱乐等各种知识。而垂直行业LLM聚焦于特定行业领域的知识,例如医疗领域的LLM会大量摄入医学文献、临床案例、药物知识等专业内容。这些模型经过专门的训练,对特定行业的术语、概念和流程有深入的理解。例如,在医疗诊断方面,垂直行业LLM可以准确识别各种疾病的症状、诊断标准和治疗方法,并且能根据患者的具体情况提供针对性的建议。垂域模型的训练数据主要来源于特定垂直行业的高质量文本,包括行业报告、学术论文、专业书籍、企业内部文档等。原创 2025-01-18 07:30:00 · 770 阅读 · 0 评论 -
开源检索增强生成引擎(RAGFlow)
RAGFlow是一款专为企业设计的高效、精准的开源检索增强生成(RAG)引擎。基于深度文档理解的知识提取能力,能帮助用户在海量数据中快速找到所需内容,确保输出内容的真实性和可靠性。兼容多种异构数据源,用户可以轻松整合不同来源的数据,提供更全面的信息基础。支持模板化的分块处理,用户可根据需要选择不同模板,优化内容呈现形式,提升会话质量和效率。提供自动化和无缝的RAG工作流程,满足从个人用户到大型企业的需求,可通过直观的API与其他业务系统无缝集成。原创 2025-01-17 07:45:00 · 1964 阅读 · 0 评论 -
基于LLM大语言模型的知识库问答系统(FastGPT)
FastGPT是一个基于LLM大语言模型的知识库问答系统。原创 2025-01-17 08:00:00 · 2100 阅读 · 0 评论 -
低代码的语言模型开发平台(Dify)
Dify是一个低代码的语言模型开发平台,它旨在帮助用户快速搭建、定制和部署基于人工智能语言模型的应用。无论是企业用户还是开发者个人,都可以利用Dify高效地创建各种自然语言处理(NLP)相关的应用程序。Dify 与多个模型供应商合作,支持主流的大语言模型,如 Claude3、OpenAI、千问、千帆、星火等系列模型。开发者能够根据自己的需求选择最适合的模型来构建 AI 应用,充分利用不同模型的优势,实现更好的应用效果。原创 2025-01-17 07:30:00 · 2820 阅读 · 0 评论 -
MaxKB与Dify的对比分析
和Dify都是基于大语言模型(LLM)技术的开源平台,但它们在功能、应用场景、用户群体等方面存在显著差异。MaxKB主要聚焦于知识管理和智能问答系统,而Dify则是一个更全面的大语言模型应用开发平台,支持多种应用程序类型和丰富的功能组件。原创 2025-01-16 07:45:00 · 2229 阅读 · 0 评论 -
开放指令训练语言模型(OpenInstruct)
OpenInstruct 是AllenAI机构推出的一个开源项目,旨在利用人工智能技术改变传统的教学方式,提供个性化的学习体验。核心是构建一个能够理解、生成和评估教学指令的模型,可进行指令理解、生成和评估,还能提供个性化推荐。开源地址:https://github.com/allenai/open-instruct。原创 2025-01-16 07:30:00 · 617 阅读 · 0 评论 -
面向教育领域大语言模型对话系统(EduChat)
EduChat由华东师范大学计算机科学与技术学院的EduNLP团队开发的一个面向教育领域的大规模语言模型对话系统,目标是为教师、学生和家长提供个性化、公平和富有同理心的智能教育服务。具备开放问答、情感支持、作文批改、启发式教学、自动出题、课程辅导和高考咨询等丰富功能。基于大规模语言模型,融合了多样化的教育领域数据,并通过指令微调和价值观对齐等方法进行优化。开源地址:https://github.com/ECNU-ICALK/EduChat。原创 2025-01-15 07:45:00 · 894 阅读 · 0 评论 -
基于大语言模型的知识库问答系统(MaxKB)
MaxKB是一款基于大语言模型和检索增强生成(RAG)技术的开源知识库问答系统。MaxKB 是由飞致云旗下的 1Panel 团队开发的。github地址: https://github.com/1Panel-dev/MaxKB。原创 2025-01-03 07:30:00 · 1368 阅读 · 0 评论 -
golang调用Moonshot API
Moonshot的文本生成模型(指moonshot-v1)是训练用于理解自然语言和书面语言的,它可以根据输入生成文本输出。以下案例采用字符串输入“你好,我是极深数据。请问1+10等于多少?运行后生成了正确的对话输出。原创 2024-12-23 10:27:49 · 204 阅读 · 0 评论 -
图神经网络代码模型(GraphCodeBERT)
GraphCodeBERT是在CodeBERT的基础上进一步改进的模型,它引入了图神经网络(Graph Neural Network,GNN)来更好地处理代码的结构信息。代码的语法和语义结构可以自然地表示为图结构,例如抽象语法树(Abstract Syntax Tree,AST)。GraphCodeBERT通过GNN对代码的图结构进行建模,能够更深入地理解代码的逻辑和上下文关系,从而在代码理解和生成任务中取得更好的性能。原创 2024-12-09 07:30:00 · 1308 阅读 · 0 评论 -
编程预训练模型(PLBART)
1.模型架构采用Transformer架构,这一架构能够有效捕捉输入序列中的长期依赖关系,适合处理像代码和自然语言这样的序列数据。通过自注意力机制,模型可以在不同位置的输入元素之间建立关联,从而更好地理解和生成文本。2.预训练策略通过三种不同的噪声策略对代码进行自动编码预训练,包括令牌掩码、令牌删除和令牌填充。这些策略能够让模型学习如何在破坏后的输入序列中恢复原始信息,增强模型的泛化能力和语义理解力。3.训练数据。原创 2024-12-05 07:30:00 · 1841 阅读 · 0 评论 -
预训练代码生成模型(CodeT5)
CodeT5是由Salesforce研究团队开发的一种开源的预训练代码生成模型,它基于T5架构,并在大规模的代码数据集上进行了预训练。CodeT5能够将代码的输入转换为相应的输出,例如根据函数的签名生成函数体、根据代码片段生成完整的代码等。它在代码生成任务中表现出色,能够生成高质量、符合语法和逻辑的代码。CodeT5在多种代码相关任务上取得了先进的性能表现,如代码生成、代码补全、文本到代码检索等任务。原创 2024-12-04 07:45:00 · 1226 阅读 · 0 评论 -
软件开发语言模型(CodeBERT)
1.模型架构CodeBERT的架构本质上是由多个自注意力“头”组成的Transformer编码器层堆栈。对于输入序列中的每个标记,每个头会计算键、值和查询向量,用于创建加权表示/嵌入,同一层中所有头的输出被组合并通过一个全连接层,每层都用跳过连接相连,然后进行层规范化.2.预训练数据。原创 2024-12-03 07:45:00 · 1602 阅读 · 0 评论 -
医疗大模型(Disc-MedLLM)
Disc-MedLLM由复旦大学发布的针对医疗健康对话式场景而设计的医疗领域大模型与数据集,该模型由 DiscMedSFT 数据集基于 Baichuan13BBase 指令微调得到,有效地对齐了医疗场景下的人类偏好。项目地址:https://github.com/fudandisc/discmedllm。原创 2024-11-29 07:45:00 · 1342 阅读 · 0 评论