自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(32)
  • 收藏
  • 关注

原创 手搓一个Eval#Datawhale组队学习大模型任务Task4

Hugging Face 是一个非常流行的开源社区,专注于自然语言处理(NLP)任务,尤其是基于 Transformer 架构的深度学习模型。它提供了一系列工具和服务,包括模型库、数据集库以及社区支持等。通常是指用于评估大型语言模型性能的工具或平台。这些系统旨在衡量模型在不同任务上的表现,包括但不限于自然语言处理(NLP)任务,如文本生成、问答、翻译等。uning,用于实现和管理微调(fine-tuning)预训练语言模型的方法。关于评价指标,精确率(查准),召回率(查全),F1分数。

2024-10-01 22:42:39 619

原创 手搓一个Agent#Datawhale 组队学习Task3

书接上回,首先回顾一下Task2的一些补充:Task2主要任务是从零预训练一个tiny-llama模型,熟悉一下Llama的模型架构和流程。然后测试一下模型的效果。总的来说,因为某些未知的原因,loss一直没有降下去,导致最终效果一般般。

2024-09-27 22:37:30 747

原创 从零预训练一个tiny-llama#Datawhale组队学习Task2

Q:什么是Flash Attention?A:Flash Attention 是一种用于加速Transformer模型中自注意力(self-attention)机制的优化技术。传统自注意力机制的时间复杂度和内存消耗均为 O(N2),其中 N是序列长度。Flash Attention 通过优化注意力计算的方式,能够在保持计算精度的同时显著降低计算成本,特别是内存消耗。Q:Flash Attention的机制是什么?如何实现这种优化的?

2024-09-23 21:30:29 1116

原创 从零开始手搓Transformer#Datawhale组队学习Task1#

动手学深度学习PyTorch》一些简介:Transformer 是一种在自然语言处理(NLP)领域具有里程碑意义的模型架构,首次在2017年的论文《Attention is All You Need》中提出。该架构摒弃了传统的递归神经网络(RNN)和卷积神经网络(CNN),完全依赖于自注意力机制(Self-Attention Mechanism),使得模型能够并行处理序列数据,大幅提升了训练效率。

2024-09-19 22:16:20 1100

原创 #Datawhale X 李宏毅苹果书 AI夏令营#2.实践方法论

比较合理选择模型的方法是把训练的数据分成两半,一部分称为训练集(training set), 一部分是验证集(validation set)。模型复杂度的平衡:可以选一个中庸的模型,不是太复杂的,也不是太简单的,刚刚好可以在训练集上损失最低,测试损失最低。一般只会用到梯度下降进行优化,这种优化的方法很多的问题。为什么会有过拟合这样的情况呢?模型偏差可能会影响模型训练。

2024-08-30 15:16:17 660

原创 #Datawhale X 李宏毅苹果书 AI夏令营#1.2了解线性模型

图1的这条红色曲线,我们可以把它看作是由下面几段蓝色曲线叠加得到的,如果不理解的话,那么换个说法,这们可以把红色曲线看到是由自身的三段折线叠加组合而成。线性模型只能模拟简单的线性关系,无法模拟复杂的非线性关系,然后现实中的问题通常是复杂的。:在训练数据和测试数据上的结果是不一致的,训练数据上效果很好,在测试数据(没看过的数据)上,效果变差,这种情况称为过拟合(overfitting)。随着我们使用数据的增加,训练损失和验证损失都在减少,到一定程度后,验证损失不在减小,表明仅靠增加数据,模型已达到上限。

2024-08-29 20:38:31 983

原创 OpenCompass 评测 InternLM-1.8B 实践 #书生浦语大模型实战营

OpenCompass 是一个用于评测大模型性能的开源平台,旨在为大语言模型、多模态模型等提供一站式的评测服务。

2024-08-28 18:26:41 958

原创 #Datawhale X 李宏毅苹果书 AI夏令营#3.1&3.2局部极小值与鞍点&批量和动量

本章介绍深度学习常见的概念,主要包括3.1局部极小值与鞍点;3.2批量和动量。

2024-08-27 21:59:18 860

原创 #Datawhale X 李宏毅苹果书 AI夏令营#1.1机器学习基础案例学习

机器学习算法是一种能够从数据中学习的算法。专业的定义:“对于某类任务 T 和性能度量 P,一个计算机程序被认为可以从经验 E 中学习是指,通过经验 E 改进后,它在任务 T 上由性能度量 P 衡量的性能有所提升。”简单概括一下就是:利用经验改善系统自身的性能。我们回到苹果书,苹果书对这个专业的定义做了简化,并使用了函数来进行类比。“具体来讲,机器学习就是让机器具备找一个函数的能力。机器具备找函数的能力以后,它可以做很多事。

2024-08-27 17:18:41 1040

原创 XTuner微调个人小助手认知 #书生浦语大模型实战营#

本次的任务是使用 XTuner 微调 InternLM2-Chat-1.8B 实现自己的小助手认知,从而让模型能够个性化的回复,让模型知道他是我们的小助手,在实战营帮我们完成XTuner微调个人小助手认知的任务。并截图打卡。微调前,模型的回复比较通用。微调后,模型可以有个性化的回复啦。

2024-08-26 21:19:39 1203

原创 llamaindex+Internlm2 RAG实践 #书生谱语大模型实战营#

NLTK(Natural Language Toolkit) 是一个广泛使用的 Python 库,用于处理自然语言数据。它是自然语言处理(NLP)领域中最受欢迎的工具之一,被广泛应用于学术研究、教育以及工业界的各种项目中。NLTK 提供了一系列用于文本处理的工具和资源,包括分词、词性标注、命名实体识别、语法分析等。主要特点:1)丰富的数据集和语料库;2)广泛的文本处理工具;3)教育和研究用途;4)社区支持。

2024-08-24 20:45:30 983

原创 LangGPT结构化提示词编写实践 #书生大模型实战营#

近期相关研究发现,LLM在对比浮点数字时表现不佳,经验证,internlm2-chat-1.8b (internlm2-chat-7b)也存在这一问题,例如认为13.8<13.11。:利用LangGPT优化提示词,使LLM输出正确结果。

2024-08-23 22:33:09 800

原创 #Datawhale AI夏令营第4期#AIGC文生图方向复盘

这是#Datawhale AI夏令营第4期#AIGC文生图方向复盘。本次是基于魔搭社区开展的实践学习。经过一周的学习,从通过代码实现AI文生图逐渐进阶,教程偏重图像工作流、微调、图像优化等思路,最后会简单介绍AIGC应用方向、数字人技术(选学)。

2024-08-18 22:38:35 259

原创 #Datawhale AI夏令营第4期#多模态大模型复盘

这是Datawhale AI夏令营第4期多模态大模型赛道的复盘总结。本次学习最终获得了优秀学习者的称号。本次赛事是Better Synth 是一项以数据为中心的挑战赛,考察如何合成与清洗图文数据以在多模态大模型上取得更优的图片理解能力。

2024-08-18 22:28:09 279

原创 #Datawhale AI夏令营第4期#AIGC方向Task3

在之前的任务中,我们已经对baseline进行了精读,并生成了,我们自己的八图故事。在Task3中,我们的主要任务有两个:part1:工具初探一ComfyUI应用场景探索;Part2:Lora微调。微调是一种在预训练模型的基础上进一步训练以适应特定任务的方法。这种技术广泛应用于自然语言处理和计算机视觉领域。

2024-08-17 22:48:48 337

原创 #Datawhale AI夏令营第4期#多模态大模型Task3

Data-Juicer 是一个多模态数据处理系统,旨在提升数据质量,使其更适合用于大语言模型(LLMs)。系统提供了一系列用于数据处理的强大工具,包括 80 多个核心操作符、20 多个可重用配置和丰富的工具包。Data-Juicer 支持多种数据格式和多模态数据处理(如文本、图像、音频、视频),并且可以灵活扩展以满足特定需求。Data-Juicer的核心就是算子,通过算子的组合,我们可以实现数据的清洗。Data-Juicer中的算子分为以下 5 种类型。Formatter:发现、加载、规范化原始数据。

2024-08-17 18:04:30 693

原创 #Datawhale AI夏令营第4期#多模态大模型Task2

在DJ中,数据沙盒实验室为用户提供了持续生产数据菜谱的最佳实践,其具有低开销、可迁移、有指导性等特点,用户在沙盒中基于一些小规模数据集、模型对数据菜谱进行快速实验、迭代、优化,再迁移到更大尺度上,大规模生产高质量数据以服务大模型。用户在沙盒中,除了DJ基础的数据优化与数据菜谱微调功能外,还可以便捷地使用数据洞察与分析、沙盒模型训练与评测、基于数据和模型反馈优化数据菜谱等可配置组件,共同组成完整的一站式数据-模型研发流水线。进行数据合成与清洗,产出一份基于种子数据集的更高质量、更多样性的数据集,并在。

2024-08-15 21:57:13 669

原创 #Datawhale AI夏令营第4期#AIGC方向 文生图 Task2

Task2任务:对baseline的代码有一个更加细致的理解,然后学习如何借助AI来提升我们的自学习能力.

2024-08-14 11:46:58 1429

原创 #Datawhale AI 夏令营第4期#多模态大模型Task1

本次任务:天池Better Synth多模态大模型数据合成挑战赛。在当下大数据、大模型时代,大数据是驱动大模型的能源。当前大模型的训练数据绝大部分来源于互联网上的信息,但随着大模型尺寸与性能逐渐提升,互联网上的海量数据也将逐渐使用殆尽,并且对于多模态大模型来说,这些海量资源在获取后,也需要极大的额外处理和人力标注才可以达到可用于训练大模型的水准。因此,如何借助已有的强大的大模型,在有限的计算资源下为新的模型训练流程高效合成优质的训练数据成为了一个新兴的值得关注的问题。

2024-08-11 21:44:17 551

原创 #Datawhale AI夏令营第4期#AIGC 文生图 Task1

文生图(Text-to-Image Generation)的历史可以追溯到人工智能领域开始尝试使用深度学习技术来生成图像。早期探索:GAN(生成对抗网络)的提出标志着生成模型的一个重大突破。它由两个神经网络组成:生成器(Generator)和判别器(Discriminator)。生成器的任务是生成看起来真实的图像,而判别器的任务是区分真实图像和生成图像。发展阶段:随着技术的成熟和进步,出现了更多的GAN的变体,并结合了注意力机制,提高了文本到图像生成的质量。

2024-08-11 19:31:56 797

原创 8G 显存玩转书生大模型 Demo #书生大模型实战营#

(TimM)是一个 PyTorch 的模型库,它提供了大量的预训练图像模型,包括经典的 CNN(卷积神经网络)架构以及最新的研究进展。很好的理解了我的问题,默认生成了一段中文的描述,对图片的描述比之前的InternLM-XComposer2-VL-1.8B效果要好。InternVL2 是上海人工智能实验室推出的新一代视觉-语言多模态大模型,是首个综合性能媲美国际闭源商业模型的开源多模态大模型。LMDeploy 是一个用于快速部署语言模型的服务框架,它可以帮助你轻松地将大型语言模型部署到各种环境中。

2024-08-09 20:31:38 953

原创 #Datawhale AI 夏令营第3期#AI+地球科学(极端降水预测) 复盘

数据集:数据集给出的是.nc格式的文件,需要使用xarray库去对数据进行处理,xarray库是用于处理高维数据的,这在气象领域很常用。训练与调参优化:划分训练集和验证集,模型参数初始化,学习率,优化器,训练周期的选择,正则化,损失函数的构造等。数据分析与预处理:读取数据集,分析数据之间的联系,数据查看,数据归一化,异常值处理。

2024-08-06 18:17:38 153

原创 书生·浦语大模型全链路开源开放体系介绍#书生大模型实战营#

书生·浦语大模型是由上海人工智能实验室(上海AI实验室)、商汤科技联合香港中文大学、复旦大学及上海交通大学共同研发的一个大规模语言模型。自2023年发布以来,历时一年多,目前已经更新到InternLM2.5。

2024-08-06 09:44:09 789

原创 #Datawhale AI 夏令营第3期#AI + 地球科学 Task4 学习笔记

强对流天气是气象学上所指发生突然、移动迅速、天气剧烈、破坏力强的中小尺度灾害性天气,通常伴有雷雨大风、冰雹、龙卷风、短时强降水等。由于空间尺度小、生命史短暂、并带有明显的突发性,就目前的预报方法和技术水平而言,对其进行“定点、定量、定时”的预报难度很大。江苏东部临海,地势平坦,域内江河湖泊水网交织,处于亚热带和暖温带的气候过渡地带,易积聚不稳定能量,导致强对流频发,对社会基础设施、公众生命安全产生较大威胁。因此,江苏地区的强对流天气预报一直是短临预报业务工作中的重点与难点。

2024-08-03 18:21:45 688

原创 #Datawhale AI夏令营第3期#AI+地球科学 学习笔记 Task3打卡

Datawhale AI夏令营第3期 AI+地球科学(极端降水预测) Task3打卡

2024-08-03 09:05:16 1033

原创 #DataWhale AI 夏令营第3期#AI+地球科学 学习笔记 Task2打卡

利用PyTorch框架,定义好需要使用的模型,根据输入输出数据维度实例化模型。baseline我们选择的是单层的CNN模型,后续改进可以选择更深的模型,可以选择RNN模型,可以用一些更复杂,效果更好的模型,这个有待我们去进一步探索优化。

2024-07-30 16:44:05 984

原创 #Datawhale AI 夏令营#AI+大气科学(极端天气预测赛事)学习笔记

时间序列预测问题,AI+大气科学,极端天气预测,datawhale夏令营

2024-07-27 18:01:28 818

原创 #书生大模型实战营#L0_作业_Python基础打卡

请使用本地vscode连接远程开发机,将上面你写的wordcount函数在开发机上进行debug,体验debug的全流程,并完成一份debug笔记(需要截图)。请实现一个wordcount函数,统计英文字符串中每个单词出现的次数。返回一个字典,key为单词,value为对应单词出现的次数。TIPS:记得先去掉标点符号,然后把每个单词转换成小写。不需要考虑特别多的标点符号,只需要考虑实例输入中存在的就可以。VSCode使用SSH连接到开发机,然后启动Debug,设置断点,点击运行。

2024-07-26 15:26:45 178

原创 #书生大模型实战营#闯关作业L0_Linux基础+学习笔记

#书生大模型实战营#L0入门岛闯关任务

2024-07-25 16:54:37 953

原创 IT行业现状与未来趋势-人工智能与机器学习

随着技术的不断进步,IT行业已成为推动全球经济和社会发展的关键力量。从云计算、大数据、人工智能到物联网、5G通信和区块链,这些技术正在重塑我们的生活和工作方式。你眼中IT行业的现状及未来发展趋势是怎么样的?无论您是行业领袖、技术专家还是创新者,快来跟我们分享你的见解吧!让我们共同探索IT行业的无限可能!

2024-05-13 14:06:37 1767 3

原创 pytorch数据集加载datasets模块

作为一个新手,刚刚发表了一篇博客,发现有个推广活动,需要在零点之前打卡创作两篇文章,可以获得1500曝光券。。。所以再给大家讲一下前面博客里面提到的数据集加载模块datasets模块。一来是为了完成打卡任务,二来是对前文的一些补充,也不算是水。各位理解一下哈。使用datasets模块需要安装torchvision库。

2024-05-09 23:03:35 791 1

原创 【深度学习】LeNet-5简介及代码实现(PyTorch)

LeNet代码复现,MNIST数据集,pytorch

2024-05-09 21:11:22 2668

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除