自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(83)
  • 资源 (2)
  • 收藏
  • 关注

原创 【课程总结】day29:大模型之深入了解Retrievers解析器

在上一章【课程总结】day28:大模型之深入探索RAG流程中,我们对RAG流程中文档读取(LOAD)->文档切分(SPLIT)->向量化(EMBED)->存储(STORE)进行了深入了解,本章将接着深入了解解析(Retrieval)的使用简介:在 RAG(Retrieval-Augmented Generation)流程中,Retrieval(检索)是关键环节,其主要目标是从大量文档或知识库中提取与用户查询相关的信息。目的。

2024-09-29 11:04:15 938

原创 【课程总结】day28:大模型之深入探索RAG流程

在上一章【课程总结】day27:大模型之初识RAG中,我们初步了解了RAG的基本概念和原理,并通过代码实践了一个简单的RAG流程。本章我们将基于RAG的基本流程,深入了解文档读取(LOAD)文档切分(SPLIT)向量化(EMBED)和存储(STORE)的每个环节,并结合代码进行常见场景的实践。介绍:Chroma 是一个开源的向量数据库,专为处理和存储高维向量而设计,特别适用于机器学习和深度学习应用。高效的向量存储:Chroma 提供高效的向量存储和检索功能,能够处理大规模数据集。相似性搜索。

2024-08-29 20:25:23 1058

原创 【课程总结】day27:大模型之初识RAG

通过前几章的学习,我们已经掌握连接一个第三方大模型,使用LangChain与大模型建立交互,并且通过Prompt进行提问,得到相应的回答。本章我们将开始了解RAG(检索增强生成)技术,了解RAG的技术原理以及基本使用方法。大模型的公共知识都是陈旧的!部分私有的知识大模型没有学习过…RAG(检索增强生成)技术的出现是为了应对传统生成模型在处理大规模知识时的局限性,其结合了信息检索与生成模型的优势,能够在生成过程中动态地从外部知识库中检索相关信息,从而提高生成内容的准确性和丰富性。

2024-08-21 14:08:31 804

原创 【课程总结】day26:大模型应用开发之Prompt进阶使用

在上一章【课程总结】day25:大模型应用之Prompt的初步了解的学习中,我们了解了大模型上层开发中Prompt的基本流程。

2024-08-21 14:05:44 806

原创 【课程总结】day25:大模型应用开发之Prompt初步了解

在上一章,我们主要了解了什么是LangChain以及基本的部署方式,本章将结合LangChain框架,了解大模型的应用方式:即Prompt。

2024-08-21 14:03:40 846

原创 【课程总结】day24(下):大模型部署调用(vLLM+LangChain)

在上一章【课程总结】day24(上):大模型三阶段训练方法(LLaMa Factory)内容中主要了解一个大模型的训练过程,无论是第三方的大模型还是自研的大模型,都需要部署到服务端,提供对应API接口供上层应用使用。所以,本章将主要了解vLLm + langchain的基本使用方法。

2024-08-15 19:23:14 1306

原创 【课程总结】day24(上):大模型三阶段训练方法(LLaMa Factory)

本章我们将通过 LLaMA-Factory 具体实践大模型训练的三个阶段,包括:预训练、监督微调和偏好纠正。根据LLaMa-Factory的README,我们需要在中按照以下格式注册自定义的数据集。数据集注册格式:"数据集名称": {我们在在},在中,注册新添加的数据集。},

2024-08-15 19:22:02 1368 5

原创 【课程总结】day23:大模型训练策略(BERT模型与GLM模型)

在前两章的学习中,我们了解到大模型的训练过程,其中Base model(底座大模型)的训练采用了挖空填空的策略。本章我们将结合BERT和GLM两个模型的论文,深入了解在预训练时两者的具体训练策略。BERTBEncoderRTransformers)是由Google在2018年提出的一种预训练语言模型。贡献BERT开创了预训练和微调的范式,使得在NLP任务中,研究者可以利用大规模无标注数据进行预训练,从而减少对标注数据的依赖。论文原文(NO.1)BERTBEncoderRT论文翻译(NO.1)

2024-08-15 19:19:53 805

原创 【课程总结】day22:Qwen模型的体验

在上一章【课程总结】day21(下):大模型的三大架构及T5体验中,我们体验了Encoder-Decoder架构的T5模型。本章内容,我们将以Decoder-Only架构的Qwen模型入手,了解Qwen模型结构、聊天模板的概念以及通过大模型进行翻译、信息抽取等任务的尝试。Qwen2是Qwen大型语言模型的新系列,基于LLaMA架构,由Qwen团队进行训练。参数规模:Qwen2系列模型的参数范围从0.5亿到72亿,Qwen2-7B对应是70亿参数规模。上下文长度。

2024-08-15 19:19:18 978

原创 【课程总结】day21(下):大模型的三大架构及T5体验

在前两篇学习中【课程总结】day19(中):Transformer架构及注意力机制了解,我们初步了解大模型的公共底层架构的构成,同时借助对的代码深入了解(【课程总结】day20:Transformer源码深入理解之训练过程),初步掌握了的训练过程。本篇我们将对大模型的训练阶段进行初步了解,同时部署一个T5模型进行试用体验。

2024-08-15 19:17:54 939

原创 【课程总结】day21(上):Transformer源码深入理解之预测过程

在上一章【课程总结】day20:Transformer源码深入理解-训练过程总结中,我们对Transformer的训练过程进行了详细的分析,本章将介绍Transformer的预测过程。

2024-08-15 19:16:50 838

原创 【课程总结】day20:Transformer源码深入理解之训练过程

在上一章【课程总结】day19(下):Transformer源码深入理解总结中,我们对Transformer架构以及初始化部分做了梳理,本章我们将对Transformer训练过程进行代码分析理解。

2024-08-15 19:15:45 1130

原创 【课程总结】day19(下):Transformer源码深入理解之构建模型流程

在上一章【课程总结】day19(下):Transformer架构及注意力机制了解总结中,我们对Transformer架构以及注意力机制有了初步了解,本章将结合中的源码,对Transformer的架构进行深入理解。

2024-08-03 21:11:48 911

原创 【课程总结】day19(中):Transformer架构及注意力机制了解

本章内容,我们将从注意力的基础概念入手,结合Transformer架构,由宏观理解其运行流程,然后逐步深入了解多头注意力、多头掩码注意力、融合注意力等概念及作用。

2024-08-03 21:10:23 1047

原创 【课程总结】day19(上):大模型简介

终于,我们的课程将要进入到当前最为火热的大模型部分。本章内容,我们将开始了解大模型,其中的内容包含大模型的发展历史、大模型的特点、大模型底层架构Transformer的简单了解以及最后对于人工智能的思考。大模型通常指的是具有大量参数(具有数亿到数千亿参数的深度学习模型)的深度学习模型,这些模型在处理复杂任务时展现出显著的性能提升。

2024-08-03 21:08:42 1152

原创 【课程总结】Day18:Seq2Seq的深入了解

在上一章【课程总结】Day17(下):初始Seq2Seq模型中,我们初步了解了Seq2Seq模型的基本情况及代码运行效果,本章内容将深入了解Seq2Seq模型的代码,梳理代码的框架图、各部分组成部分以及运行流程。tqdm 是一个用于在 Python 中显示进度条的库,非常适合在长时间运行的循环中使用。OpenCC(Open Chinese Convert)是一个用于简体中文和繁体中文之间转换的工具。

2024-08-03 21:07:04 692

原创 【课程总结】Day17(下):初始Seq2Seq模型

日月忽其不淹兮,春与秋其代序。技术更新的车轮在滚滚向前,曾经名噪一时的RNN模型,在新的技术革新下也渐渐落幕,本章我们将初步了解Seq2Seq模型,同时借助Demo代码,对Seq2Seq模型有一个直观了解。序列到序列(seq2seq)模型是一种用于处理序列数据的架构,主要用于将一个输入序列转换为一个输出序列。它广泛应用于机器翻译、文本摘要、对话系统等任务。

2024-08-03 21:05:44 464

原创 【课程总结】Day17(中):LSTM及GRU模型简介

在上一章【课程总结】Day17(上):NLP自然语言处理及RNN网络我们初步了解RNN的基本概念和原理。本章内容,我们将继续了解RNN的变种模型,如LSTM和GRU。长短期记忆网络(LSTM)是一种特殊类型的递归神经网络(RNN),旨在解决传统 RNN 在处理长序列时常见的梯度消失和梯度爆炸问题。LSTM 通过引入门控机制,能够有效地捕捉长期依赖关系。

2024-08-03 21:04:00 1168

原创 【课程总结】Day17(上):NLP自然语言处理及RNN网络

在机器学习章节【课程总结】Day6(上):机器学习项目实战–外卖点评情感分析预测中,我们曾借助sklearn进行了外卖点评的情感分析预测;接下来,我们将深入了解自然语言处理的基本概念、RNN模型以及借助RNN重新进行外卖点评的情感分析预测。循环神经网络(Recurrent Neural Network,简称RNN)是一种能够处理序列数据的神经网络模型。

2024-08-03 21:02:29 773

原创 【课程总结】Day16:对抗生成网络GAN

在前一阶段课程中,我们学习了图像分割中的语义分割实例分割旋转目标检测等。这些图像分割算法都是有监督学习,而GAN(生成对抗网络)是一种特别的学习策略,其核心思想非常值得借鉴,所以本章将以GAN网络的代码为切入口,了解掌握其核心思想。在上述的两种学习策略中,有一种特殊的、独立的学习策略:GAN(生成对抗网络)。它由两个网络(生成器和判别器),通过对抗在竞争中共同发展。G:生成器(造假)D:鉴别器(打假)训练过程:两个网络刚开始都没有任何能力在竞争中共同发展最后两个网络能力都得到提升。

2024-08-03 21:01:38 1080

原创 【课程总结】Day15(下):图像分割之旋转目标检测

在前两章【课程总结】Day15(上):图像分割之语义分割和【课程总结】Day15(中):图像分割之实例分割中,我们学习掌握了语义分割和实例分割。在本章中,我们将了解YOLO最新的OBB(旋转目标检测)。在实际应用场景中,我们需要标注自己的数据集,对此我们使用x-anylabeling进行数据标注。

2024-08-03 21:00:21 1011

原创 【课程总结】Day15(中):图像分割之实例分割

在上一章,我们通过学习了解了语义分割以及U-Net网络结构【课程总结】Day15(上):图像分割之语义分割。在本章,我们将学习了解图像分割中的实例分割以及相关的数据预处理注意事项。COCO(Common Objects in Context)数据集是一个广泛使用的计算机视觉数据集,主要用于物体检测、分割和图像标注等任务。FiftyOne是一个开源的数据集管理工具,它提供了可视化工具和API,用于管理、探索和共享数据集。官网地址:https://voxel51.com/fiftyone/

2024-08-03 20:59:04 974

原创 【课程总结】Day15(上):图像分割之语义分割

上一章我们已经学习掌握了计算机视觉中的人脸检测【课程总结】Day14:MTCNN过程的深入理解,接下来的我们将学习了解计算机视觉中:语义分割和图像分割。语义分割,是将图像中的每个像素都分类为特定的语义类别,如"人"、“车”、"建筑"等。访问https://segment-anything.com/demo#也可在线体验语义分割。# U_Net模型中的双卷积网络结构# 此处包含padding,为了使输出图像与输入图像大小相同# 编码器部分# 特征图大小不变# 特征图大小长宽减半。

2024-08-03 20:58:26 272

原创 【课程总结】Day14:MTCNN过程的深入理解

在上一章【课程总结】Day13(下):人脸识别和MTCNN模型中,我们初步了解了人脸识别的概念以及MTCNN的网络结构,借助开源项目的代码,初步在本地实现了MTCNN的数据预处理、训练和预测过程。本章内容,我们将深入MTCNN的代码,理解数据预处理、训练和预测过程。"""- 断点续传 --> 短点续训- transfer learning 迁移学习- pretrained model 预训练:param epochs: 训练的轮数:param landmark: 是否为landmark任务。

2024-08-03 20:57:19 452

原创 【课程总结】Day13(下):人脸识别和MTCNN模型

在上一章课程【课程总结】Day13(上):使用YOLO进行目标检测,我们了解到目标检测有两种策略,一种是以YOLO为代表的策略:特征提取→切片→分类回归;另外一种是以MTCNN为代表的策略:先图像切片→特征提取→分类和回归。因此,本章内容将深入了解MTCNN模型,包括:MTCNN的模型组成、模型训练过程、模型预测过程等。MTCNN(Multi-Task Cascaded Convolutional Neural Networks)是一种用于人脸检测和面部对齐的神经网络模型。

2024-07-06 12:36:18 748

原创 【课程总结】Day13(上):使用YOLO进行目标检测

在上一章《【课程总结】Day11(下):YOLO的入门使用》的学习中,我们通过YOLO实现了对图片的分类任务。本章的学习内容,将以目标检测为切入口,了解目标检测流程,包括:数据标准、模型训练以及模型预测。LabelImg是一个用于图像标注的开源工具,它可以帮助用户快速而准确地为图像创建标注框,并生成相应的标注文件。

2024-06-30 23:03:15 1092

原创 【课程总结】Day12:YOLO的深入了解

在【课程总结】Day11(下):YOLO的入门使用一节中,我们已经了解YOLO的使用方法,使用过程非常简单,训练时只需要三行代码:引入YOLO,构建模型,训练模型;预测时也同样简单,只需要两行代码:引入YOLO,预测图像即可。以上过程简单主要是ultralytics的代码库已经做了封装,使得使用者集中精力在模型训练和预测上。为了更加深入了解YOLO的实现原理,本章内容将对YOLO的工程结构、模型构建过程、模型训练过程尝试深入探究。

2024-06-27 11:23:05 912

原创 【课程总结】Day11(下):YOLO的入门使用

YOLO(You Only Look Once)是一种流行的目标检测算法,由Joseph Redmon等人于2015年提出。YOLO的设计思想是将目标检测任务转化为单个神经网络的回归问题,通过在图像上划分网格并对每个网格预测边界框和类别置信度来实现目标检测。

2024-06-26 22:10:30 1106

原创 【课程总结】Day11(中):手势图像识别实战(Vgg16和ResNet)

在上一章《【课程总结】Day11(上):手势图像识别实战(LeNet模型)》课程中,我们通过使用LeNet模型实现了手势识别。在本章内容中,我们将搭建Vgg模型和ResNet模型,并应用到手势识别中。VGG是一种深度卷积神经网络模型,由牛津大学的研究团队提出。它在2014年的ImageNet图像分类比赛中获得了第二名的好成绩,被广泛应用于计算机视觉领域。论文地址:https://arxiv.org/abs/1409.1556。

2024-06-26 22:09:14 654

原创 【课程总结】Day11(上):手势图像识别实战(LeNet模型)

上一章内容我们初步了解了卷积、卷积神经网络、卷积神经网络的搭建过程以及经典的LeNet网络结构,本篇内容将基于LeNet网络结构,实现手势识别。在开展手势识别之前,我们需要先下载并初步了解数据集的情况。

2024-06-26 22:08:14 651

原创 【课程总结】Day10:卷积网络的基本组件

由于接下来的课程内容将围绕计算机视觉展开,其中接触最多的内容是卷积、卷积神经网络等…因此,本篇内容将从卷积入手,梳理理解:卷积的意义、卷积在图像处理中的作用以及卷积神经网络的概念,最后利用pytorch搭建一个神经网络。Batch Normalization是一种用于神经网络的技术,通过在神经网络的每一层对输入进行归一化处理,即将每个特征维度的数据归一化为均值为0、方差为1的分布,以减少内部协变量转移(Internal Covariate Shift)。作用。

2024-06-23 09:28:47 957

原创 【课程总结】Day9:机器学习主要知识点梳理

2024-06-13 21:06:51 119

原创 【课程总结】Day8(下):计算机视觉基础入门

在人工智能领域,机器可以处理的数据类型如上图,大约可以分为以上类别。# 相当于如下3×3的矩阵# 卷积核的中间行为零,第一行为负数,第二行为正数。这样可以突出图像中垂直方向像素有突变的情况。运行结果如下:如果像素相同,经过上面卷积核的运算就会上下像素抵消为0,变成黑色;如果像素不同,经过上面卷积核的运算就会把差异放大抽取出来,从而凸显出像素的突变。

2024-06-13 21:04:08 994

原创 【课程总结】Day8(上):深度学习基本流程

在上一篇课程《【课程总结】Day7:深度学习概述》模型训练过程→本质上是固定w和b参数的过程;让模型更好→本质上就是让模型的损失值loss变小;让loss变小→本质上就是求loss函数的最小值;本篇文章,我们将继续深入了解深度学习的项目流程,包括:批量化打包数据、模型定义、损失函数、优化器以及训练模型等内容。在深度学习中构建模型是指设计神经网络结构,确定网络的层数、每层的神经元数量、激活函数等参数,以实现特定的学习任务。

2024-06-13 11:09:40 1006

原创 【课程总结】Day6(下):机器学习项目实战–成人收入预测

因为标签列的内容只有两种情况:‘<=50K’ 和’>50K’,所以只需要将这一列中’<=50K’替换为0,'>50K’替换为1即可。基于个人收入数据(包括教育程度、年龄、性别等)的数据集,通过机器学习算法,预测一个人的年收入是否超过5万美金。由于其存在潜在的数字大小对比,让算法认为特征之间存在大小关系,所以并不适用于上述的婚姻状况、职业类型、国家等。1、实现一个函数,传入三个参数:分别是离散量列的序号、连续量列序号和丢弃列序号。最后,在去除丢弃列之后,将连续量列和离散量列按照列方向堆叠为一个新的矩阵。

2024-06-11 21:34:01 1147

原创 【重拾数学知识】导数、极值和最值

在深度学习中,梯度下降法是一种常用的优化算法,用于更新模型参数以最小化损失函数。这梯度下降法中涉及到数学中的导数极值等相关知识,因此我们重新回顾相关内容,以便加深理解。导数表示函数 f(x) 在某一点 x 处的变化率(或斜率),通常记作 f’(x) 或 df/dx。偏导数是多元函数在某一点上对某个特定变量的导数,即函数在该点上沿着某个坐标轴方向的变化率。偏导数本质上是在多元函数中,通过固定某一变量为常量,将多元降维。极值是函数在某一点或某一区间内取得的最大值或最小值。

2024-06-11 18:53:45 1138

原创 【课程总结】Day7:深度学习概述

本篇文章,我们将通过示例来逐步学习理解导数、求函数最小值、深度学习的本质、以及使用numpy和pytorch实操深度学习训练过程。

2024-06-11 18:51:22 1202

原创 【课程总结】Day6(上):机器学习项目实战--外卖点评情感分析预测

在这个例子中,字汇表为[“方”, “便”, “,”, “快”, “捷”, “味”, “道”, “可”, “口”, “快”, “递”, “给”, “力”]。在这种方法中,每个汉字被表示为一个固定长度的向量,向量的大小等于字典的大小,每个条目对应于预定义单词字典中的一个单词,其中只有一个位置是1,其余为0。在词袋模型中,文本中的每个汉字被看作是独立的,没有关联性,然后根据字典统计单词出现的频数。如果数据是汉字,机器是无法处理的,其底层都是处理数字,我们需要将汉字向量化为数字。

2024-06-06 01:17:38 877 2

原创 【课程总结】Day5(下):PCA降维、SVD分解、聚类算法和集成学习

人们早就知晓,相比凉爽的天气,蟋蟀在较为炎热的天气里鸣叫更为频繁。数十年来,专业和业余昆虫学者已将每分钟的鸣叫声和温度方面的数据编入目录,通过将数据绘制为图表如下:此曲线图表明温度随着鸣叫声次数的增加而上升。我们可以绘制一条直线来近似地表示这种关系,如下所示:事实上,虽然该直线并未精确无误地经过每个点,但针对我们拥有的数据,清楚地显示了鸣叫声与温度之间的关系(即y = mx + b)。如果我们输入一个新的每分钟的鸣叫声值 x1推断(预测)温度 y′,只需将 x1 值代入此模型即可。

2024-06-03 15:58:39 1543

原创 【课程总结】Day5(上):科学计算神器Numpy、Pytorch和数据预处理

均值是一组数据中所有数据值的总和除以数据值的个数。

2024-06-03 15:56:30 935 1

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除