Soyoger
申明:个人微信公众号:AI技术研习社,公众号ID:ai2club。本博客只是用来学习,并不从事任何商业活动,其内容是自己总结或者来自互联网搜索到的,并没有过多关注版权问题,如有侵权内容,请私信我进行删除,谢谢。本博客内容主要围绕计算机领域热点技术和工作内容,不涉及版权问题,任何人可以查看、转载。
展开
-
开篇词:大模型国内应用落地思考与实践
相信,使用过ChatGPT的人,在被ChatGPT表现出的惊人的能力所征服时,也对ChatGPT在某些场景下的落地感到痛苦。受限于地域、网络、数据安全和法律合规等限制,ChatGPT的使用,总有一种被别人卡脖子的感觉。所以,国内各行业、企业拥有自己的大模型和技术就显得非常有必要,也势在必行。原创 2023-07-16 11:24:58 · 666 阅读 · 0 评论 -
动手搭建自己的问答服务
一个简单、稳定可用的服务实践,快点动手实践,搭建自己的应用吧!原创 2023-08-05 23:06:46 · 291 阅读 · 0 评论 -
现在LLM 的大小为什都设计成6/7B、13B和130B几个档次?
其中,在拓展购物消费体验方面,《措施》鼓励在确保透明度和严格监管的前提下,采用AI大模型、VR全景技术和数字人等前沿科技,拓宽电商直播边界。目前,常见的更大模型包括16B、34B、52B、56B、65B、70B、100B、130B、170B和220B等。将大语言模型设计成6/7B、13B和130B等几个档次,是在性能、计算资源、应用场景、训练调优、市场需求和研究实验等多方面综合考虑的结果。能下载到的模型普遍都是6/7B(小)、13B(中)、大(130B) 三种,比如ChatGLM 和Llama2 等。原创 2024-07-29 10:06:19 · 323 阅读 · 0 评论 -
Hugging Face 介绍
Hugging Face通过其Transformers库,为NLP领域提供了一个全面的工具集,包括Pipeline、AutoClass、数据集、模型工具和评估工具。这些工具不仅简化了NLP任务的实现,还促进了社区的协作和知识共享,推动了NLP技术的发展和应用。AutoClass是Hugging Face提供的一个强大的工具,它允许用户自动加载和使用预训练模型,而无需关心模型的具体实现细节。这些数据集可以用于模型训练、评估和微调。Hugging Face的模型工具包括模型训练、微调和评估所需的各种工具和库。原创 2024-07-27 11:54:44 · 20 阅读 · 0 评论 -
HuggingFace如何进行预训练和微调?
训练语言模型,尤其是用于完整的 LLM 微调,需要大量的计算资源。展望未来,LLM 的持续探索和创新,加上改进的微调方法,有望推动更智能、更高效和上下文感知的人工智能系统的发展。LoRA 是一种改进的微调方法,它不是微调构成预训练大型语言模型权重矩阵的所有权重,而是微调近似于这个较大矩阵的两个较小矩阵。在这种方法中,使用包含标记样本的数据集来调整模型的权重,从而提高其在特定任务中的熟练程度。特定任务的适配:在微调过程中,模型的参数会根据新数据集进行调整,帮助模型更好地理解和生成与特定任务相关的内容。原创 2024-07-27 14:56:12 · 140 阅读 · 0 评论 -
Prompt技巧篇:让chatgpt输出更好的答案
假设你想让 AI 总结一篇非常非常长的文章,并且按照特定格式给你总结,那你可以在文章前面明确输出的格式(为了不占用太多显示空间,我省略了正文内容,你可以在 OpenAI 的 Playground 看到完整案例)。据我的测试,主要还是 AI 不知道什么是指令,什么是待处理的内容,用符号分隔开来会更利于 AI 区分。在代码生成场景里,有一个小技巧,上面提到的案例,其 prompt 还可以继续优化,在 prompt 最后,增加一个代码的引导,告知 AI 我已经将条件描述完了,你可以写代码了。原创 2024-07-31 19:30:00 · 135 阅读 · 0 评论 -
Prompt的 “注入” 攻击
Prompt注入攻击类似于传统的SQL注入攻击,通过在输入中嵌入恶意代码或指令,攻击者可以影响大语言模型的输出行为。具体来说,攻击者向模型提供精心设计的输入,诱导模型生成错误、误导或有害的响应,从而实现攻击目的。在 Web 安全领域,JavaScript 注入攻击是一种常见的威胁,攻击者通过在网页中注入恶意的 JavaScript 代码,来窃取用户信息、篡改网页内容或者执行其他恶意操作。例如,在一个问答系统中,用户输入的问题可能包含恶意指令,引导模型生成不当的回答。这可以减少恶意指令被模型接受的可能性。原创 2024-07-30 19:30:00 · 312 阅读 · 0 评论 -
谈LLM的数据工程,搞大模型等于洗数据?
在过去的一年中,关于大模型的研究揭示了一个不好的现象:许多人认为,只要向大模型输入大量数据即可,而不顾数据的噪声和质量。高质量的数据是模型成功的基础,而这些数据的获取和处理过程,需要大量的人工参与和精细化操作。广义上,研发大模型的数据工程不仅包括上述步骤,还涵盖了在增量预训练、SFT(特殊任务微调)、RAG(检索增强生成)和Prompt等不同阶段的数据处理和应用。狭义上,研发大模型的数据工程可以定义为:依据具体的研发场景与任务,采集相关研发数据,并生成模型预训练语料或微调数据集。原创 2024-07-31 10:51:12 · 10 阅读 · 0 评论 -
什么是Agent?揭秘AI时代的智能代理
随着人工智能的迅猛发展,越来越多的新概念和技术应运而生。在这些技术中,“Agent”成为了一个备受关注的话题。那么,什么是Agent?它又有什么样的独特之处呢?本文将带你深入了解Agent的概念、能力谱系及其在AI系统中的应用。在没有统一定义的情况下,Agent的含义因背景而异。为了便于理解,我们可以参考一个较为技术化的定义:Agent是用大型语言模型(LLM)来决定一个应用控制流程的系统。简单来说,Agent利用AI模型来驱动应用程序的行为和决策。Agent的能力谱系。原创 2024-07-29 09:33:11 · 16 阅读 · 0 评论 -
微软下一代RAG:GraphRAG
尽管GraphRAG已被评估其对提示和数据集成注入攻击的弹性,并已探查特定类型的危害,但用户配置GraphRAG所用的LLM可能会生成不适当或冒犯性的内容,这可能使其在没有具体用例和模型的附加缓解措施的情况下不适合在敏感环境中部署。GraphRAG旨在支持关键的信息发现和分析用例,这些用例中所需的信息分散在许多文档中,信息可能是嘈杂的,混杂着错误和/或虚假信息,或者用户希望回答的问题比底层数据能直接回答的问题更加抽象或具有主题性。对于独特的数据集,有效的索引依赖于正确识别领域特定的概念。原创 2024-08-01 09:42:58 · 2 阅读 · 0 评论 -
GraphRAG:极大增强大模型问答、摘要、推理
LLM RAG结合了检索和生成两大功能,能够从外部知识库中检索相关信息,并生成高质量的文本回答,这种创新极大地拓展了LLM的应用范围和性能。所以,微软在RAG基础之上通过“Graph”图的方式,例如,文本中的实体,人物、地点、概念等,构建了超大的知识图谱,帮助大模型更好地捕捉文本中的复杂联系和交互,来增强其生成、检索等能力。知识更新灵活:大语言模型在训练后,其内部知识是静态的,而RAG架构允许模型在生成文本时实时检索最新的外部信息,从而保持知识的时效性和准确性。原创 2024-07-30 09:31:33 · 10 阅读 · 0 评论