人工智能
文章平均质量分 74
疯狂的小强呀
这个作者很懒,什么都没留下…
展开
-
论文阅读之DeepSeek-Coder-V2 Breaking the Barrier of Closed-Source Models in Code Intelligence
介绍了一种开源专家混合 (MoE) 代码语言模型——DeepSeek-Coder-V2特点:- 基于DeepSeek-V2 的中间检查点进一步预训练的,相比较于 DeepSeek-V2 ,其**编码**和**数学推理能力**更强,同时保持了通用语言任务中相当的性能- 对编程语言的支持种类从 86 扩展到 338,同时上下文长度从 16K 扩展到 128K- 在标准基准评估中,DeepSeek-Coder-V2 在编码和数学基准测试中与 GPT4-Turbo、Claude原创 2024-08-26 20:23:42 · 997 阅读 · 0 评论 -
大语言模型之Qwen2技术报告阅读笔记
Qwen2 包括更广泛的语言数据,提高了代码和数学内容的数量和质量所有模型都经过监督微调和直接偏好优化 ,通过学习人类反馈将它们与人类偏好对齐超越了大多数先前的开放权重模型,包括它的前身 Qwen1.5在语言理解、生成、多语言熟练程度、编码、数学和推理的不同基准上相对于专有模型表现出具有竞争力的性能Qwen2 展示了强大的多语言能力,精通大约 30 种语言特别是Qwen2-72B在多个评估指标上展示了显着的性能。原创 2024-08-26 20:16:53 · 1043 阅读 · 0 评论 -
大模型分布式训练之DeepSpeed优化器并行(ZeRO)原理
由于大模型参数量非常庞大,所以我们常常需要用到分布式训练来解决训练过程中计算资源不足的问题,现在也出现了很多大模型相关的分布式训练框架,但是使用的比较多的还是deepspeed的数据并行,那么deepspeed是怎么实现数据并行的呢。原创 2024-08-01 16:47:52 · 1375 阅读 · 0 评论 -
Image Caption评估指标深入理解
**BLEU**(Biligual Evaluation understudy):是一种用来评估机器翻译的评价指标,广泛出现在文本生成的论文当中,是一种基于单词精确度的度量方式。BLEU采用一种 N-Gram 的匹配规则,具体来说就是比较 生成文本 和 真实文本 之间的 N组词 的相似度原创 2024-07-30 20:57:20 · 889 阅读 · 0 评论 -
深入理解Prompt工程
Prompt工程(Prompt Engingering),也被称为上下文提示(In-Context Prompting),指的是通过结构化文本等方式来完善提示词,引导LLM输出我们期望的结果。简单一点来说,就是给LLM模型一些提示或者说指令,让LLM模型清晰准确的知道我们要干什么。那给什么样的提示或者指令能更好更准确输出我们想要的结果呢???怎么设计这样的指令呢???这就是Prompt工程要考虑的事情!!!大模型对 prompt 开头和结尾的内容更敏感。原创 2024-07-25 15:44:40 · 1205 阅读 · 0 评论 -
从huggingface上下载数据集具体步骤
最近需要从huggingface上下载一个数据集,发现不能像模型那样能直接点击下载,需要通过代码来获取,很麻烦,谨以此博客作为记录原创 2024-06-30 21:26:10 · 3376 阅读 · 7 评论 -
新手教程之使用LLaMa-Factory微调LLaMa3
如果你尝试过微调大模型,你就会知道,大模型的环境配置是非常繁琐的,需要安装大量的第三方库和依赖,甚至需要接入一些框架。但是大模型微调的方法又是非常类似的,那有没有一种工具可以统一这些操作,让大模型微调变成一个简单易上手的事情,LLaMa-Factory就是为了解决这个问题应运而生原创 2024-06-04 23:01:16 · 4584 阅读 · 4 评论 -
大模型ChatGLM的部署与微调
最近大模型太火了,导师让我看看能不能用到自己的实验中,就想着先微调一个chatGLM试试水,微调的过程并不难,难的的硬件条件跟不上,我试了一下lora微调,也算跑通了吧,虽然最后评估的时候报错了,淦!真正设计lora微调的就那一行代码,仅以此博客作为记录,希望有大佬能够告知为啥评估的时候会出现那两个bug,不胜感激!原创 2024-06-03 22:52:33 · 1001 阅读 · 4 评论 -
论文精读之BLIP: Bootstrapping Language-Image Pre-training for Unified Vision-Language Understanding
因为之前看了CLIP,所以把BLIP看了一下,其实模型也没有很复杂,整体来说还是编解码器结构,只不过 加了图像文本对比学习以及图像文本匹配学习,作者还提出了一种针对有噪声的图像文本对的数据增强方式,想法蛮不错,但是还是需要有文本描述的图像才行,我个人是觉得,要是只有图像就能获得对应的描述作为增强数据就好了,因为实际生活中,常常是只有图像没有对应的文本。好了,我们进入正题吧~原创 2024-05-07 21:10:41 · 738 阅读 · 0 评论 -
论文精读之GRIT: Faster and Better Image captioning Transformer Using Dual Visual Features
之前的很多图像描述方法都是通过fast-rcnn(作为物体探测器)来提取区域特征,这样的方法存在三个问题:①缺乏上下文信息 ②局部识别不准确 ③计算成本高原创 2024-04-21 16:06:46 · 858 阅读 · 2 评论 -
论文解读之Attention-based Deep Multiple Instance Learning
多实例学习是由监督学习演变而来的,我们都知道,监督学习在训练的时候是一个实例(或者说一个样本、一条训练数据)对应一个确定的标签。而多实例的特点就是,我们在训练的时候的输入是多个实例对应一个确定的标签,我们把这多个实例看做一个包,每个包有一个确定的标签,包是有标签的而包里面的实例是没有标签的,多实例的目的就是,进而进行一系列的任务,比如说分类等。原创 2024-03-17 18:56:28 · 1385 阅读 · 0 评论 -
在使用TensorFlow的时候内部报错:内部某个方法或属性不存在
看到TensorFlow内部封装的方法报错的时候,我的第一反应是版本不匹配,立马去搜了对应版本,按照网上给的TensorFlow 2.2.0+keras 2.3.1 +python 3.7,反反复复安装、卸载、升级、降低版本了很多回还是八行原创 2023-08-02 19:04:01 · 747 阅读 · 0 评论 -
文本向量化
因为文本不能够直接被模型计算,所以需要将其转化为向量。把文本转化为向量有两种方法:①转化为one-hot编码②转化为word embedding原创 2023-06-06 14:24:04 · 3193 阅读 · 0 评论 -
bert实现词嵌入及其参数详解
last_hidden_state 代表了BERT模型对输入文本的编码表示,其维度为[batch_size, sequence_length, hidden_size],其中,batch_size表示批处理中的样本数量;sequence_length表示每个样本的序列长度,即输入文本的令牌数量;hidden_size表示BERT模型的隐藏状态的维度大小,通常是预训练模型的参数之一原创 2023-06-02 20:41:31 · 3469 阅读 · 3 评论 -
word2vec实现训练自己的词向量及其参数详解
较大的窗口大小可以捕捉更远的上下文关系,但可能导致模型更加稀疏。通常,窗口大小的选择取决于训练数据的特性。较大的学习率可以加快模型收敛速度,但如果设置得太大,模型可能会发散。vector_size:词向量的维度,即每个单词表示为一个多少维的向量。较大的值通常会导致更丰富的语义表示,但也需要更多的计算资源。较小的值可以过滤掉噪声单词,但也可能会过滤掉一些有用的信息。一般来说,设置为CPU核心数的值是一个合理的选择。sentences:训练数据,一个包含多个句子的列表,每个句子是一个包含多个单词的列表。原创 2023-06-02 15:56:04 · 1484 阅读 · 2 评论 -
pytorch实现梯度下降和反向传播
假设模型为y=w*x+b我们给出的训练数据是通过y=3*x+1,得到的,其中w=3,b=1通过训练y=w*x+b观察训练结果是否接近于w=3,b=1原创 2023-03-13 16:16:44 · 324 阅读 · 0 评论 -
bigbird怎么进行长文本建模
预训练阶段通常使用大规模的文本语料库进行,通过无监督学习的方式,让模型学习到语言的一般规律和特征。1.数据预处理:首先需要对输入的长文本进行分段处理,将文本分成多个较短的子序列,以便于模型的处理。3.微调模型:在完成预训练后,可以使用一些有标注的文本数据,对BigBird进行微调,使其能够适应特定的任务。需要注意的是,由于BigBird具有非常大的模型规模和复杂的计算过程,所以需要使用强大的计算资源来支持模型的训练和微调。4.输出预测结果:最后,使用微调后的模型对新的文本进行预测,输出预测结果。原创 2023-03-08 19:04:30 · 375 阅读 · 0 评论 -
先验概率、后验概率和共轭分布详解
简单点理解,就是事件发生前的预判概率。这个概率是在没有其他条件的情况下我们自己给出的概率,它可以基于历史数据的统计得出,可以基于背景常识得出,也可以基于人的主观观点得出。原创 2022-09-14 20:07:23 · 498 阅读 · 0 评论 -
机器学习实操的七个步骤
机器学习实操的七个步骤1. 收集数据2. 准备数据3. 选择一个模型4. 训练5. 评估6. 参数调整7. 预测原创 2022-08-04 11:33:28 · 1037 阅读 · 0 评论 -
机器学习方法总结
机器学习根据训练⽅法⼤致可以分为3⼤类:- 监督学习 - ⾮监督学习- 强化学习原创 2022-08-03 17:03:23 · 731 阅读 · 0 评论 -
自然语言处理入门
自然语言处理入门自然语言处理入门自然语言的概念自然语言的理解自然语言处理的概念自然语言处理的相关技术自然语言处理难点相关学习链接自然语言处理入门自然语言的概念自然语言的理解自然语言处理(NLP)概念理解相关技术应用前景自然语言的概念自然语言是指人类日常使用的语言,如汉语、英语、法语、德语、等等。自然语言是人类交流和思维的主要工具。自然语言的理解人工智能早期研究的领域之...原创 2019-07-28 19:57:36 · 2526 阅读 · 0 评论 -
词性标注
词性标注词性标注的理解词性标注又称词类标注或者简称标注,是指为分词结果中的每个单词标注一个正确的词性,也即确定每个词是名词、动词、形容词或其他词性的过程词性标注可以由人工或特定算法完成,使用机器学习方法实现词性标注是自然语言处理的研究内容。常见的词性标注算法包括隐马尔可夫模型( HMM)、条件随机场( CRFs)等词性汇编表词主要分为两类:实词:名词、动词、形容词、状态词、区...原创 2019-08-06 08:54:02 · 692 阅读 · 0 评论