liferecords
码龄3年
关注
提问 私信
  • 博客:237,450
    社区:20
    动态:91
    237,561
    总访问量
  • 103
    原创
  • 19,554
    排名
  • 2,244
    粉丝
  • 43
    铁粉
  • 学习成就
IP属地以运营商信息为准,境内显示到省(区、市),境外显示到国家(地区)
IP 属地:福建省
  • 加入CSDN时间: 2022-03-22
博客简介:

liferecords的博客

查看详细资料
  • 原力等级
    成就
    当前等级
    5
    当前总分
    1,099
    当月
    5
个人成就
  • 获得1,526次点赞
  • 内容获得36次评论
  • 获得1,360次收藏
创作历程
  • 88篇
    2024年
  • 11篇
    2023年
  • 7篇
    2022年
成就勋章
TA的专栏
  • C++模板专题
    付费
    10篇
  • LLM
    71篇
  • 智能文档
    7篇
  • AIGC
    1篇
  • RAG
    1篇
  • 开发工具
    5篇
  • CV
    1篇
  • 高质量数据
    1篇
  • 进程间通信
    1篇
  • 书籍
    1篇
  • 基础知识
    2篇
  • 有趣的Leecode
    1篇
兴趣领域 设置
  • Python
    python
  • 人工智能
    计算机视觉机器学习自然语言处理pytorchstable diffusionchatgpt
创作活动更多

AI大模型如何赋能电商行业,引领变革?

如何使用AI技术实现购物推荐、会员分类、商品定价等方面的创新应用?如何运用AI技术提高电商平台的销售效率和用户体验呢?欢迎分享您的看法

176人参与 去创作
  • 最近
  • 文章
  • 代码仓
  • 资源
  • 问答
  • 帖子
  • 视频
  • 课程
  • 关注/订阅/互动
  • 收藏
搜TA的内容
搜索 取消

ICDAR2024论文集 - Part 1

发布资源 2024.09.18 ·
zip

ChatGLM:A Family of Large Language Models from GLM-130B to GLM-4 All Tools

本文介绍了ChatGLM,这是一个不断发展的大型语言模型系列,我们一直在开发中。本报告主要关注GLM-4语言系列,包括GLM-4、GLM-4-Air和GLM-4-9B。这些代表了我们训练的最先进的模型,它们结合了之前三代ChatGLM的所有见解和经验教训。迄今为止,GLM-4模型主要在中文和英文上进行了预训练,使用了大约一万亿个token,以及来自24种语言的一小部分语料库,并主要针对中文和英文使用进行了优化。通过多阶段后训练过程,包括有监督的微调和从人类反馈中学习,实现了高质量的对齐。
原创
发布博客 2024.06.19 ·
1203 阅读 ·
28 点赞 ·
0 评论 ·
13 收藏

DeepSeek-Coder-V2: Breaking the Barrier of Closed-Source Models in Code Intelligence

我们介绍了DeepSeek-Coder-V2,这是一个开源的混合专家(MoE)代码语言模型,其性能与GPT4-Turbo在代码特定任务中相当。具体来说,DeepSeek-Coder-V2是从DeepSeek-V2的中间检查点进一步预训练而来,额外使用了6万亿个token。通过这种持续的预训练,DeepSeek-Coder-V2在编码和数学推理能力上大幅度增强了DeepSeek-V2的能力,同时在一般语言任务中保持了相当的性能。
原创
发布博客 2024.06.19 ·
1334 阅读 ·
24 点赞 ·
0 评论 ·
20 收藏

MDPO:Conditional Preference Optimization for Multimodal Large Language Models

直接偏好优化(DPO)已被证明是大型语言模型(LLM)对齐的有效方法。近期的研究尝试将DPO应用于多模态场景,但发现难以实现一致的改进。通过比较实验,我们确定了多模态偏好优化中的无条件偏好问题,即模型在优化过程中忽略了图像条件。为了解决这个问题,我们提出了MDPO,这是一个多模态DPO目标,它通过同时优化图像偏好来防止过度优先考虑仅基于语言的偏好。此外,我们引入了一个奖励锚点,强制奖励对于选定的响应为正,从而避免了它们的似然度降低——这是相对偏好优化的一个内在问题。
原创
发布博客 2024.06.18 ·
910 阅读 ·
5 点赞 ·
0 评论 ·
5 收藏

ChartMimic: Evaluating LMM’s Cross-Modal Reasoning Capability via Chart-to-Code Generation

本文介绍了一个新的基准测试ChartMimic,旨在评估大型多模态模型(LMMs)的视觉基础代码生成能力。ChartMimic使用信息密集型的视觉图表和文本指令作为输入,要求LMMs生成相应的图表渲染代码。ChartMimic包含1000个人工策划的(图表,指令,代码)三元组,代表了在各个领域(如物理、计算机科学、经济学等)科学论文中发现的真实图表使用案例。这些图表涵盖了18种常规类型和4种高级类型,细分为191个子类别。此外,我们提出了多级评估指标,以自动全面评估输出代码和渲染图表。
原创
发布博客 2024.06.17 ·
1027 阅读 ·
21 点赞 ·
0 评论 ·
8 收藏

Xmodel-VLM: A Simple Baseline for Multimodal Vision Language Model

我们介绍了Xmodel-VLM,这是一个尖端的多模态视觉语言模型。它旨在高效地部署在消费级GPU服务器上。我们的工作直接面对一个关键的行业问题,即通过解决阻碍大规模多模态系统广泛采用的高昂服务成本问题。通过严格的训练,我们从头开始开发了一个10亿规模的语言模型,采用LLaVA范式进行模态对齐。我们称之为Xmodel-VLM的结果是轻量级但功能强大的多模态视觉语言模型。在众多经典多模态基准测试中的广泛测试表明,尽管其体积更小、执行速度更快,但Xmodel-VLM的性能可与更大的模型相媲美。
原创
发布博客 2024.05.16 ·
548 阅读 ·
4 点赞 ·
0 评论 ·
5 收藏

Introducing Meta Llama 3: The most capable openly available LLM to date

我们希望解决开发人员的反馈,以提高 Llama 3 的整体实用性,并在这样做的同时继续在负责任地使用和部署 LLMs.我们正在接受尽早发布的开源精神,并经常发布,以使社区能够在这些模型仍在开发中时访问它们。在不久的将来,我们的目标是使 Llama 3 成为多语言和多模态的,具有更长的上下文,并继续提高推理和编码等核心LLM功能的整体性能。我们新的 8B 和 70B 参数 Llama 3 模型是 Llama 2 的重大飞跃,并为LLM这些规模的模型建立了新的最先进的技术。
原创
发布博客 2024.04.22 ·
1551 阅读 ·
8 点赞 ·
0 评论 ·
19 收藏

MeshLRM: Large Reconstruction Model for High-Quality Meshes

MeshLRM是一种新颖的基于LRM(Large Reconstruction Models)的方法,能够仅使用四张输入图像在不到一秒钟的时间内重建出高质量的网格。与以往侧重于基于NeRF重建的LRM不同,MeshLRM将可微分的网格提取和渲染集成到LRM框架中。这允许通过微调预训练的NeRF LRM与网格渲染来实现端到端的网格重建。此外,我们通过简化以前LRM中的几个复杂设计来改进LRM架构。MeshLRM的NeRF初始化是使用低分辨率和高分辨率图像顺序训练的;
原创
发布博客 2024.04.21 ·
1288 阅读 ·
25 点赞 ·
0 评论 ·
11 收藏

Reka Core, Flash, and Edge: A Series of Powerful Multimodal Language Models

我们介绍了 Reka Core、Flash 和 Edge,这是一系列由 Reka 从头开始训练的强大多模态语言模型。Reka 模型能够处理和推理文本、图像、视频和音频输入。这份技术报告讨论了这些模型的一些训练细节,并提供了全面的评估结果。我们展示了 Reka Edge 和 Reka Flash 不仅是各自计算类别中的最新技术,而且还超过了许多更大的模型,为各自的计算类别提供了巨大的价值。同时,我们最有能力且最大的模型 Reka Core,在自动评估和盲人评估中接近最佳前沿模型(OpenAI, 2023;
原创
发布博客 2024.04.19 ·
1108 阅读 ·
33 点赞 ·
0 评论 ·
17 收藏

Dynamic Typography: Bringing Text to Life via Video Diffusion Prior

文本动画是一种表达媒介,通过将文字注入动态来转变静态的沟通方式,以此激发情感、强调含义并构建引人入胜的叙事。制作语义感知的动画面临重大挑战,需要图形设计和动画方面的专业知识。我们提出了一种自动化的文本动画方案,称为“动态排版”,它结合了两个具有挑战性的任务:将字母变形以传达语义意义,并根据用户提示赋予它们生动的运动。我们的技术利用矢量图形表示和一个端到端的基于优化的框架。该框架采用神经位移场将字母转换为基础形状,并应用每帧运动,鼓励与预期文本概念的一致性。
原创
发布博客 2024.04.19 ·
1248 阅读 ·
10 点赞 ·
0 评论 ·
27 收藏

LONG-FORM MUSIC GENERATION WITH LATENT DIFFUSION

音频生成模型在音乐领域取得了显著进展,但迄今为止尚未能够产生具有连贯音乐结构的完整长度音乐曲目。我们展示了通过在长时间上下文上训练生成模型,可以产生最长达到4分45秒的长篇音乐。我们的模型由一个扩散变换器组成,该变换器操作在高度下采样的连续潜在表示上(潜在率为21.5赫兹)。根据音频质量和提示对齐的指标,它获得了最先进的生成结果,主观测试表明它产生了具有连贯结构的完整长度音乐。
原创
发布博客 2024.04.18 ·
785 阅读 ·
16 点赞 ·
0 评论 ·
4 收藏

Learn Your Reference Model for Real Good Alignment

本文提出了一种新的方法Trust Region DPO (TR-DPO),用于改进大型语言模型(LLMs)的对齐问题。现有的对齐方法存在不稳定性的问题,研究者们不断发明各种技巧来解决这一缺陷。例如,在语言模型对齐的基本技术RLHF中,除了最大化奖励外,还会最小化可训练策略和SFT策略之间的Kullback-Leibler散度。这种添加可以防止模型过度拟合奖励模型(RM)并生成对RM来说领域外的文本。DPO方法重新定义了RLHF的优化任务,并在隐式中保持策略接近SFT策略的要求。
原创
发布博客 2024.04.17 ·
1152 阅读 ·
26 点赞 ·
0 评论 ·
20 收藏

TransformerFAM: Feedback attention is working memory

TransformerFAM是一种新型的Transformer架构,它通过引入反馈循环机制,使得网络能够关注自身的潜在表示。这种设计促进了Transformer内部工作记忆的出现,使其能够处理无限长的序列。TransformerFAM不需要额外的权重,能够与预训练模型无缝集成。实验表明,TransformerFAM在处理长上下文任务时显著提高了不同模型大小(1B、8B和24B)的性能,展示了赋能大型语言模型(LLMs)处理无限长度序列序列的潜力。
原创
发布博客 2024.04.17 ·
1311 阅读 ·
18 点赞 ·
0 评论 ·
17 收藏

Social Skill Training with Large Language Models

本文探讨了如何利用大型语言模型(LLMs)进行社交技能训练。社交技能如冲突解决对于有效沟通和在工作和生活中取得成功至关重要。然而,大多数人难以获得实践社交技能的环境。我们提出了一个通用框架,通过AI伙伴和AI导师(APAM)结合体验学习和现实练习以及量身定制的反馈来进行社交技能训练。本工作最终呼吁跨学科创新,以解决劳动力发展和社会平等的更广泛影响。
原创
发布博客 2024.04.08 ·
841 阅读 ·
3 点赞 ·
0 评论 ·
3 收藏

Chinese Tiny LLM: Pretraining a Chinese-Centric Large Language Model

本研究介绍了CT-LLM(Chinese Tiny Large Language Model),这是一个2B参数的大型语言模型(LLM),它标志着在开发LLMs时优先考虑中文的重大转变。CT-LLM的独特之处在于,它从头开始,主要通过包含1200亿个token的广泛语料库进行预训练,其中包括800亿个中文token、300亿个英文token和100亿个代码token。这种战略性组成通过比对技术增强了模型在理解和处理中文方面的卓越能力。
原创
发布博客 2024.04.08 ·
1243 阅读 ·
30 点赞 ·
0 评论 ·
8 收藏

Advancing LLM Reasoning Generalists with Preference Trees

我们介绍了Eurus,一系列针对推理任务优化的大型语言模型(LLM)。Eurus模型基于Mistral-7B和CodeLlama-70B进行微调,实现了在多个涵盖数学、代码生成和逻辑推理问题的基准测试中的最先进性能。值得注意的是,Eurus-70B在12个测试覆盖五个任务的全面基准测试中击败了GPT-3.5 Turbo,并在LeetCode和TheoremQA这两个具有挑战性的基准测试中分别达到了33.3%的pass@1准确率和32.6%,显著优于现有的开源模型,性能提升超过13.3%。
原创
发布博客 2024.04.03 ·
1099 阅读 ·
10 点赞 ·
0 评论 ·
14 收藏

Long-context LLMs Struggle with Long In-context Learning

大型语言模型(LLMs)在处理超过32K个token的长序列方面取得了显著进展。然而,它们的性能评估主要局限于诸如困惑度和合成任务等指标,这些指标可能无法充分捕捉它们在更微妙、现实世界场景中的能力。本研究引入了一个专门的基准测试(LongICLBench),专注于极端标签分类领域内的长上下文学习。我们精心选择了六个数据集,标签范围从28到174个类别,涵盖了从2K到50K个token的不同输入(少量示例演示)长度。我们的基准测试要求LLMs理解整个输入,以识别庞大的标签空间,从而做出正确的预测。
原创
发布博客 2024.04.03 ·
818 阅读 ·
16 点赞 ·
0 评论 ·
14 收藏

Jamba: A Hybrid Transformer-Mamba Language Model

我们介绍了Jamba,一种新的基于新颖混合Transformer-Mamba混合专家(MoE)架构的基础大型语言模型。具体来说,Jamba交错了Transformer和Mamba层的块,享受两个模型家族的好处。在这些层中的一些层添加了MoE,以增加模型容量,同时保持活跃参数使用量可控。这种灵活的架构允许针对资源和目标的特定配置。在我们实现的特定配置中,我们得到了一个强大的模型,适合在单个80GB GPU中运行。
原创
发布博客 2024.04.02 ·
1149 阅读 ·
3 点赞 ·
0 评论 ·
8 收藏

Transformer-Lite: High-efficiency Deployment of Large Language Models on Mobile Phone GPUs

大型语言模型(LLM)在智能手机上的应用越来越广泛,如智能助手、文本摘要、翻译和多模态任务等。然而,当前的设备上LLM部署方法推理速度慢,导致用户体验不佳。为了在设备GPU上高效部署LLM,我们提出了四种优化技术:(a)基于符号表达式的方法支持动态形状模型推理;(b)算子优化和执行优先级设置以提高推理速度并减少手机延迟;(c)一种称为M0E4的FP4量化方法减少了反量化开销;(d)基于子张量的技术消除了LLM推理后对KV缓存进行复制的需求。
原创
发布博客 2024.04.02 ·
1413 阅读 ·
16 点赞 ·
0 评论 ·
18 收藏

Multi-font Multi-size Kannada Numeral Recognition Based on Structural Features

本文提出了一种快速新颖的多字体多尺寸卡纳达数字识别方法,该方法无需细化且不需要尺寸标准化。使用不同的结构特征进行数字识别,包括四个方向的像素方向密度、水库原理、最大轮廓距离和填充孔洞密度。使用欧几里得最小距离准则来找到最小距离,并使用K最近邻分类器对卡纳达数字进行分类,数字图像的尺寸从16到50不等,涵盖了来自NUDI和BARAHA流行文字处理卡纳达软件的20种不同字体样式。测试了总共1150个数字图像,分类的整体准确率达到了100%。该方法平均耗时0.1476秒。
原创
发布博客 2024.03.29 ·
536 阅读 ·
3 点赞 ·
0 评论 ·
9 收藏
加载更多