
小语言模型
文章平均质量分 91
大语言模型LLM 的二级目录
强化学习曾小健
"强化学习曾小健2、强化学习曾小健3、我是机器人曾小健具身"都是该号副号。CSDN全站80强博客、总近480w+浏览。AI生成式技术,计算机博士;llama3、Baichuan2、Qwen、GLM-4等等项目贡献人(ArtificialZeng)。这个博客的主题主要是强化学习技术、AI生成式技术、大模型多模态技术、机器人具身智能控制技术、机器/深度学习论文或科研前沿、GNN图神经网络、神经网络,包括人工神经网络和生物神经网络,及其大脑演化,智能和认知的产生,通用人工智能;
展开
-
[小语言模型-代码生成]Textbooks Are All You Need II: phi-1.5 technical report
这篇文章的研究背景是近年来大型语言模型(LLMs)在自然语言处理领域的显著进步,特别是像GPT-4这样的最新一代模型展示了前所未有的能力。然而,这些模型的规模也带来了巨大的经济成本和能源消耗问题。原创 2024-10-30 22:39:31 · 871 阅读 · 0 评论 -
模型摘要语言模型 Phi-1.5 是一个具有13 亿个参数的 Transformer。它使用与phi-1相同的数据源进行训练,并增加了一个由各种 NLP 合成文本组成的新数据源。在根据测试常识、语言
Phi-1.5-Phi-1.5-1.3B, Llama-Factory可调,先去找了魔搭,发现其发布的sha256和官方不一致,遂去ms官方去下载。phi1本来是MBPP和humanEval同级别同期间分数最高的。但是我找了llama-factory和swift,没见其开始支持(2024,10,26),所以先从1.5版本开始。下载完后上传到魔搭。Phi-1.5-原创 2024-10-26 20:53:31 · 53 阅读 · 0 评论 -
微软Phi-3.5-Mini-Instruct全参微调中文版来啦
8月21日,微软发布了模型。是Phi-3模型家族的最新成员,专为高效、先进的自然语言处理任务而设计。该模型具有38 亿个参数,基于Phi-3的数据集(合成数据和经过筛选的公开网站)构建,重点关注高质量、推理密集的数据。该模型属于Phi-3 模型系列,支持 128K 令牌上下文长度。经过了严格的增强过程,结合了监督微调近端策略优化和直接偏好优化,以确保精确遵守指令和强大的安全措施。Phi-3.5 mini 在强中文场景有所增。原创 2024-08-26 02:06:47 · 1644 阅读 · 0 评论 -
微软 Phi-3.1 Mini (3.8B):刚刚进行了疯狂升级(击败 Llama-3 和 Qwen2)
他们还在几乎所有平台上更新了这个新模型,包括Hugging Face和Azure AI Studio,所以你可以在Azure AI Studio上免费试用,或者如果你想本地使用,可以从Llama或Hugging Face上获取这个模型。第二个问题是:我有两个苹果,然后买了两个,做了一个苹果派,用了两个苹果,吃掉一半苹果派后还剩多少苹果?好,它虽然推理正确,但最后给出了错误答案,这也是失败。我们发送问题并查看答案。总的来说,考虑到它的体积,这个模型表现相当不错,尤其在编程方面表现出色,这也是我喜欢它的原因。原创 2024-07-12 00:11:29 · 1340 阅读 · 0 评论 -
体型虽小但威力巨大:Phi-3 小型语言模型潜力巨大
因为它是从类似教科书的材料中读取的,是从解释事物非常非常好的高质量文档中读取的,”Bubeck 说,“这让语言模型阅读和理解这些材料的任务变得容易得多。“任何涉及到诸如规划之类的事情,你有一个任务,并且这个任务足够复杂,你需要弄清楚如何将该任务划分为一组子任务,有时是子子任务,然后执行所有这些任务以得出最终答案......实际上将在大型模型的领域内运行一段时间,”瓦尔加斯说。例如,在初始训练之后,他们提供了额外的示例和关于模型应该如何理想地响应的反馈,这建立了一个额外的安全层并帮助模型产生高质量的结果。原创 2024-10-23 10:01:56 · 476 阅读 · 0 评论 -
小数据,大突破!揭秘仅0.3B个token如何让8B模型逼近GPT-4,长文本开源新纪元
随着人工智能技术的不断进步,长文本模型在理解和生成自然语言方面展现出了巨大的潜力。然而,这些模型在处理长文本时常常会遇到幻觉和指令不遵循等问题,这些问题限制了它们在实际应用中的有效性。在探索长文本对齐的征途上,位置编码的激活(窗口扩充技术)已经被很好的解决。同时,我们已见证令人振奋的进展,如o1-preview模型的问世,它们在长推理链和真实使用场景中展现出了卓越的性能。原创 2024-10-26 17:28:31 · 65 阅读 · 0 评论 -
一文读懂主流领先的 SLM(小型语言模型)
随着 LLM (大型语言模型)技术的快速发展,越来越多的开发者和组织开始尝试将其应用于实际场景。然而,这些庞大的模型往往存在着计算能力和内存占用高昂的问题,这限制了它们在一些特定环境下的应用性。这就为 SLM (小型语言模型)提供了机会,成为一种更加高效和可访问的替代方案。与拥有数千亿甚至数万亿参数的 LLM 相比,SLM 的参数量通常在几百万到几十亿之间,大幅减小了模型的体积和复杂度。原创 2024-10-23 10:21:31 · 704 阅读 · 0 评论 -
[小语言模型技术报告翻译]Phi-3技术报告:一款高度可用的本地手机语言模型
我们介绍了phi-3-mini,这是一个在3.3万亿个标记上训练的38亿参数语言模型,其整体性能,通过学术基准测试和内部测试衡量,与Mixtral 8x7B和GPT-3.5等模型的表现相媲美。尽管phi-3-mini足够小,可以部署在手机上,但其整体性能却达到了学术基准测试中的69%,在MT-bench上的成绩为8.38%。我们的训练数据集是用于phi-2的版本,由大量过滤的公开可用网络数据和合成数据组成。该模型还进一步增强了鲁棒性、安全性和聊天格式。原创 2024-10-23 10:14:53 · 1073 阅读 · 0 评论 -
[小语言模型tech report]Phi-3 Technical Report:A Highly Capable Language Model Locally on Your Phone
这篇文章介绍了phi-3-mini,一个在手机上本地运行的高度能力语言模型。原创 2024-10-23 10:12:21 · 631 阅读 · 0 评论 -
多图理解,更懂中文,支持function call的Phi-3.5来了!
使用ollama create命令创建自定义模型。原创 2024-10-23 10:07:57 · 100 阅读 · 0 评论