添柴程序猿
10年编程工作,涉及到.Net,Java,Android,C,Python等,爱好算法,人工智能,大数据等领域, 虚心求教,一起进步,大学毕业参加工作,如今一晃10多年已过,时间飞逝....
展开
-
人工智能_机器学习097_PCA数据降维算法_数据去中心化_特征值_特征向量_EVD特征值分解原来和代码实现---人工智能工作笔记0222
在协方差矩阵的分析中,这些向量代表了数据中方差较大的轴,通常用于主成分分析(PCA)中的数据降维,其中数据可以沿着这些特征向量(主成分)进行投影以减少数据的维数[^1^][^3^]。随着你沿着主成分的顺序移动,每个后续的主成分解释的方差通常会减少,因为它们捕捉的是数据中剩余的变化。PCA找到的主成分(PCs)是这些子空间的正交基向量。3. `(eigen/eigen.sum())` 是将数组 `eigen` 中的每个元素除以数组元素的总和,得到一个新的数组,其中每个元素都是原数组对应元素与总和的比值。原创 2024-06-06 14:00:39 · 188 阅读 · 0 评论 -
人工智能_机器学习096_PCA主成分分析降维算法_PCA降维原理_介绍和使用_模式识别_EVD特征值分解_SVD奇异值分解---人工智能工作笔记0221
这个对角矩阵就是奇异值矩阵,它的对角线上的数字就是奇异值。- **协方差的计算方法**:协方差的计算公式为 $Cov(X,Y) = E E其中 $X$ 和 $Y$ 是两个随机变量,$E $E分别是它们的期望值。- **协方差的应用场景**:协方差则用于分析两个变量之间的关系,例如,在金融领域,协方差可以帮助投资者了解不同股票之间的相关性,从而做出投资决策。总结一下,特征值分解和奇异值分解都是矩阵分解的方法,它们可以帮助我们找出矩阵的主要特征或者将矩阵压缩到更小的规模,同时尽可能地保留原矩阵的信息。原创 2024-06-05 11:56:35 · 177 阅读 · 0 评论 -
人工智能_大模型085_AI产品设计02_MASTERGO_传统原型工具_DRAW_FIGMA_MOTIFF_极简UI设计原则_快速Demo_开发_迭代_KANO模型---人工智能工作笔记0220
思考:懂代码的我们,可以用 [Gradio](Gradio),快速搭出一个主流程 demo,供用户/客户体验,验证需求。如果对视觉要求高,还需要特别做视觉设计。否则套模板就差不多。对全栈来说,三件事不分先后,而是彼此交错。原创 2024-05-30 09:03:57 · 80 阅读 · 0 评论 -
人工智能_大模型084_AI产品设计01_设计原则_Copilot_原型设计_收集反馈_避免欺骗_UE/UX的设计AI设计工具_USEGALILEO_V0---人工智能工作笔记0219
向导 - 提供线索,帮助用户理解 AI 的工作原理以及如何与之协作。支持 Text to UI 和 Image to UI,设计精美。色彩模式 - 提供视觉提示,帮助用户识别内容中的 AI 特性。否则套模板就差不多。模版 - 向用户提供结构化的模版,并且可以用 AI 预填写。当已经定义好产品的方向和商业模式,接下来就可以设计产品了。最受欢迎的专业原型设计工具,非常非常强大,学习成本稍高。在设计产品的过程中,时不时检查,是否这些原则全部符合。这个是一个人做的一个基于RAG的专有知识库的模型.原创 2024-05-29 09:40:08 · 56 阅读 · 0 评论 -
人工智能_大模型082_大模型时代机遇01_机会在哪里_大模型落地现状_懂业务&懂AI&懂编程最有竞争力_面临问题和挑战_AI下的编程变化---人工智能工作笔记0217
2. 基础大模型卷不起:基础大模型的竞争瞬间白热化,技术壁垒迅速下降,且用户客户迁移成本极低,最后会变成被包养的战略常备资源,而不是直接盈利点。1. AI 原生应用没机会:大模型没有创造新的使用场景,只是旧场景的增强,创业者几乎不可能撼动旧霸主的地位,更难阻挡大模型升级带来的反噬。2024 的 AI 应用爆发,值得期待。2. 有研发能力的民企,要么已经找到自己的方向,要么已决策必须动手,都开始内部升级/招兵买马。3. 没研发能力的民企,意识先进者已经用大模型赚钱了,和外包合作实现更好的自动化,甚至产品化。原创 2024-05-28 08:53:23 · 233 阅读 · 0 评论 -
人工智能_大模型081_AI产品部署和交付11_大模型安全管控方法_大模型内置提示词使用_Prompt破坏提问_互联网信息服务算法_大模型备案法规---人工智能工作笔记0216
可以去看一下.可以看到内置提示词,内置了,大模型自己可以使用的,比如定义了tools工具,还有指定了知识更新时间等待.另外大模型一般还会内置了一些提示词,比如,你问他的知识更新到了几号,他本身是不知道的,这个需要内置提示词,以及对每个类别的说明.,这个是接口返回的,对输入内容的,价值倾向的判断,是否合规的判断.然后使用openai的Moderation的接口,把输入内容给他,可以看到。可以看到还是给出了答案,但是仅限于这个答案还是合理的,但是,有些gpt可以,比如,正常文字不行,但是。原创 2024-05-28 08:52:37 · 181 阅读 · 0 评论 -
人工智能_大模型079_AI产品部署和交付09_基于云端部署大模型_部署开源LLM项目Dify_安装本地向量数据库weaviate---人工智能工作笔记0214
比如这里我们创建一个text generator生成的,应用,我们随便起个名字,然后点击create。然后docker中有个nginx,然后直接点开,启动,打开浏览器,然后。这个就是构建好的,本地的dify,然后这个,可以注册一下,然后登录。可以看到可以去创建应用,做agent智能体,聊天机器人,工作流等.选择一下gpu,然后直接就可以部署了,点击deploy就可以了.注意最后是...,最前面是---,就是这样的,这两个部分带着.可以看到部署以后,就有了demo,案例,还有api接口等等.原创 2024-05-27 09:11:44 · 196 阅读 · 0 评论 -
人工智能_大模型078_AI产品部署和交付08_基于VLLM部署大模型_FastAPI搭建API服务_VLLM分布式多卡推理_使用PostMan请求_VLLM源码部署---人工智能工作笔记0213
可以看到openai,这里很多接口调用都是,v1/chat/completions这个接口,那么其他的模型,几乎都提供这个接口,因为。这个token-abc123,就是我们指定的一个令牌,这个是需要在,authorzation中去指定的,然后对于vllm的源码安装,可以看到,可以直接使用git clone去克隆一份vllm的源码,然后去执行。然后关于vllm相关的论文,可以在vllm官网有个paper,论文,这个可以看,写的很细致.执行,下面这个命令,这里运行的是之前我们下载的YI-6B-Chat模型,原创 2024-05-24 15:05:01 · 219 阅读 · 0 评论 -
人工智能_大模型077_AI产品部署和交付07_大模型开发架构设计_本地运行chatglm3_基于VLLM安装以及部署开源大模型_在VLLM中部署YI-6B-Chat---人工智能工作笔记0212
人工智能_大模型077_AI产品部署和交付07_大模型开发架构设计_本地运行chatglm3_基于VLLM安装以及部署开源大模型_在VLLM中部署YI-6B-Chat---人工智能工作笔记0212原创 2024-05-24 15:04:18 · 105 阅读 · 0 评论 -
人工智能_大模型076_AI产品部署和交付06_基于ollama安装大模型_OpenWebUI安装_llmstudio_lobeHub-chat_7B_35B是什么意思---人工智能工作笔记0211
安装好以后,我们再回到我们创建的这个docker 容器,注意,最开始的时候,open-webui这个容器是空的,上面我们刚刚安装好,然后。可以看到点击对应地址,就可以进入安装好的openwebui了,可以看到,上面可以支持选择一个模型,然后。然后可以看到上面给出的代码,curl命令,也可以直接在,命令行中去执行,可以看到,也是可以的。可以看到这个lobehub,自己搭建以后,然后,从这里配置上对应的模型,然后。可以看到这里,如果切换模型,直接去,修改model这个地方就可以了.原创 2024-05-23 10:36:13 · 437 阅读 · 0 评论 -
人工智能_大模型075_AI产品部署和交付05_LeptonAI轻子智能_Ollama大模型_lepton Ai在线模型使用_ollama安装使用_本地模型搭建---人工智能工作笔记0210
然后我们再来看这个在本地搭建一个大模型,这里搭建chatglm3-6b模型。原创 2024-05-23 10:35:21 · 177 阅读 · 0 评论 -
人工智能_大模型074_AI产品部署和交付04_大模型接口调用_接口部署_国产模型合集_特定领域大模型_OpenAI-Forward流量控制_黑白名单_自动重试---人工智能工作笔记0209
进入这个页面以后,然后搜索aigcto 找到,我们要用的agi-proxy,然后点击import就可以了。然后我们可以在这个overview中搜索agi-proxy-x 这个是我们刚刚部署的,然后打开。可以看到就有给出的这个地址agi-proxy-x.vercel.app然后,去调用者接口的话。然后剩下的就不用管了.接下来,他就会给你一个地址,然后通过这个地址你就可以去访问了.https://api.agi-proxy-x.vercel.app/v1 就可以了.原创 2024-05-22 08:52:37 · 61 阅读 · 0 评论 -
人工智能_大模型073_AI产品部署和交付03_全球大模型排名_模型选型_Online大模型_接口价格情况_模型对比平台_按智商排名---人工智能工作笔记0208
然后我们继续看全球大模型的排名情况,可以看到,这里GPT-4-Turbo模型依然排名第一,但是,下面应该是GPT-4o了。然后看一下GPT4的接口的价格情况,可以看到,是10美元 1/M tokens 这个是输入,然后。直接点击对应的链接,就可以看到,对应的gpt4的文档了,对应模型的文档,可以点击链接直接查看.然后右边可以选择对应的大模型,然后他会自动的,在左侧显示,他的排名情况,然后这个pplx大模型,可以看到,这个模型可以实时的联网搜索.这里提供了一个大模型的排名,是按照模型的智商排名的,可以看到.原创 2024-05-22 08:51:45 · 48 阅读 · 0 评论 -
人工智能_大模型071_AI产品部署和交付01_GPU_CUDA核心_Tensor核心_LPU速度非常快_云服务_物理机_GPU云服务租用_阿里_腾讯_亚马逊_谷歌_火山---人工智能工作笔记0206
GROQ 性能测试分析](https://wow.groq.com/artificialanalysis-ai-llm-benchmark-doubles-axis-to-fit-new-groq-lpu-inference-engine-performance-results/)- 是 NVIDIA 开发的并行计算平台和编程模型,用于 GPU 上的通用计算,就像是万能工人,可以做很多不同的工作。groq这个公司做了LPU,这个产品,非常非常的快,现在我们在用的大模型,原创 2024-05-21 09:38:59 · 206 阅读 · 0 评论 -
人工智能_大模型070_多模态大语言模型18_AnimateDiff图生视频_AnimateAnyone姿势生视频_原生视频模型Sora_NaVIT_MagVIT---人工智能工作笔记0205
Transformer架构本身是一种基于自注意力机制的神经网络模型,它通过自注意力机制来捕捉输入序列中的全局依赖关系,解决了传统模型在捕捉长距离依赖关系方面的局限性。与传统的序列模型(如循环神经网络RNN和长短期记忆网络LSTM)相比,Temporal Attention模型能够更好地处理时序数据,因为它能够区分不同时间步长的重要性,而不是将所有时间步长的信息等权重地考虑进去。它不仅关注视频的局部细节,还能捕捉到视频中的整体结构和动态变化,从而生成更加丰富和真实的视频内容。原创 2024-05-21 09:38:28 · 205 阅读 · 0 评论 -
人工智能_大模型066_多模态大语言模型14_Stable Diffusion Model_SDM扩散模型_迭代情况_开源SD模型部署_SDWEBUI_COMFUI搭建---人工智能工作笔记0201
2.可以为隐藏空间中的,去除噪声过程,添加引导条件,比如文本,semantic map,语义映射, representation 特征 表征 ,甚至参考图片的数据,可以让生成的图片,变成可控的.2.然后拿到基础模型以后,对基础模型,进行微调,选取一些质量高的,精致的图片进行对模型微调,得到的,生成的图像效果就会更好一些.http://www.esheep.com可以看到,这个网站上,有很多的,提供了,人家设计好的,模型,有修改眼睛颜色的,原创 2024-05-17 08:58:12 · 181 阅读 · 0 评论 -
人工智能_大模型072_AI产品部署和交付02_GPT-4o免费评测试用_TPU_GPU云服务价格对比_算力平台_Colab_Kaggle_AutoDL_全球大模型排名---人工智能工作笔记0207
然后如果以chatglm的训练时间为例,对应这么多数据,然后对应的训练时长,可以看到是最多的6个多小时,39333 3万多条训练数据。直接选择用就是,他其实是希望,你使用对比了以后,给他打分,可以看到下面有个打分,让你判断哪个模型更好,这个网站就厉害了,他里面部署了非常多的模型,全球大模型,都部署了,都可以免费使用,可以看到这里可以点击上面的Direct Chat就可以进行选择,模型对话了,点击上面的code,不登录也可以进行一下模型的运行等,非常好用.这个是国内的autoDL平台,也挺好用的,也便宜。原创 2024-05-16 10:09:37 · 433 阅读 · 0 评论 -
人工智能_大模型064_多模态大语言模型12_判别式模型_生成式模型_原理_Autoencoder_隐变量扰动_VAE变分自编码器_DiffusionModel_扩散模型---人工智能工作笔记0199
是的,您的理解是正确的。变分自编码器(VAE)的核心思想是将数据编码成一个潜在空间中的正态分布,并且这个潜在空间具有一定的结构,可以捕捉到原始数据中的关键特征。1. **潜在空间中的点**:在VAE中,编码器输出的均值和方差是用来描述潜在空间中的一个正态分布。现在,如果你想创造一个新的形状,比如说一个看起来像房子但是稍微有点不同的形状,你只需要在数字宝藏地图上做一个小的改动,比如改变一两个数字。潜在空间中的点是由编码器输出的均值和方差确定的正态分布中采样得到的,而不是简单的x,y坐标。原创 2024-05-16 09:26:14 · 157 阅读 · 0 评论 -
人工智能_大模型061_多模态大语言模型09_AI就诊_AI导盲模型_多图问答_openSora_LLaVA改进_Vision Encoder_projection改进---人工智能工作笔记0196
整体情况了,所以,他又做了个动作就是,同时,将原本的图片,不切割的情况下,压缩到336*336的大小,把整体效果提供给大模型,可以看到它的做法,是对图片进行像素上的patch,也就是碎片化,不像,LLaVA,对图片进行小片化,patch,他是直接在。然后对于,多图问答,我试了试,智普的,效果还是很不错的,他会自动写python代码,自动执行,然后去分析图片。由于它是在像素级别上的token化,所以它对,图片的分辨率没有要求,多大,什么尺寸的图片,都可以进行训练。原创 2024-05-14 10:12:45 · 128 阅读 · 0 评论 -
人工智能_大模型060_多模态大语言模型08_LLaVA多模态大模型训练_第二阶段语言模型微调_模型部署_LLaVA模型评测---人工智能工作笔记0195
总的来说,LLaVA模型是一种强大的多模态预训练模型,它能够同时处理文本和图像输入,通过多模态融合技术将这两种数据的信息进行整合,从而能够更好地理解和处理多模态数据。3. 多模态融合:LLaVA模型采用了多模态融合技术,如注意力机制和多层感知器,将文本和图像的特征进行整合,从而能够生成更加丰富和全面的理解。这是大概的过程,大概就是,先把视频进行帧提取,然后,做时序上的处理,然后每一帧去提取特征,然后,根据。上一节我们第一阶段,训练特征映射层,对应的训练脚本,已经提供,指定训练数据集以后,原创 2024-05-14 10:11:33 · 263 阅读 · 0 评论 -
人工智能_大模型059_多模态大语言模型07_生成多模态LLaVA训练数据_构建图文复杂推理类问题训练语料_包括图像内容以及内容位置信息_训练LLaVA_A100_80G---人工智能工作笔记0194
设计一段你和询问这张照片的人之间的对话。\n \n还要包括与图片内容相关的复杂问题,例如询问图片中物体的背景知识,讨论图片中正在发生的事件等。茂密的树木在秋季的阳光下形成了美丽的背景,树木的阴影落在自行车道上,而火车则穿梭在透过树木的阳光中。gpt4v没办法把图像识别的很清晰,所以我们用了一个其他的模型,来识别了图像中的内容,然后对于gpt4v,识别不到的,内容。如果我们,在gpt4v的基础上,他生成了数据,我们再去修改,做的更精细,再去训练我们自己的模型,就会超过gpt4v.原创 2024-05-13 09:07:17 · 155 阅读 · 0 评论 -
人工智能_大模型058_多模态大语言模型06_构造多模态训练数据集_RAM_GroundingDINO_识别图像物体及位置信息_生成LLaVA训练数据_图文以及对话数据---人工智能工作笔记0193
(https://github.com/xinyu1205/recognize-anything/blob/main/ram/data/ram_tag_list.txt) (共计**4,585**类标签的识别)注意以上是用gpt4v,生成的,提供了图片,以后,他会为这个图片提供描述,那么这种,带有描述的图片,我们就可以拿来,来对。这里特别注意的是,如果,gpt4v对图片的描述有不对的,或者有不全面的地方,我们是可以补充的,看一下执行后的结果,可以看到,已经识别出了,这个图片中的内容.物体。原创 2024-05-13 09:06:52 · 124 阅读 · 0 评论 -
人工智能_大模型057_多模态大语言模型05_table-transformer_MME多模态评测集_LLaVA多模态训练原理_使用RAM_DINO构建多模态训练数据---人工智能工作笔记0192
可以看到上面的三块是对视觉识别能力的评测,每个上面写了,评测的是什么项目,比如左上角那个就是粗粒度的评测,具体包括计数,识别颜色,识别位置,判断是否存在...第二个是细粒度的,第三个,就是对OCR,图片上的内容进行识别了.3.将ProjectionW,这个部分,做成一个全连接的神经网络模型,其实就是一个小的训练模型,只训练这个模型的参数,这个模型的参数,主要是用来。然后再需要就是准备图像的对话数据集,针对一个图片进行问答的,这样的数据集,来训练大语言模型的,图文对话能力,原创 2024-05-11 10:15:17 · 49 阅读 · 0 评论 -
人工智能_大模型055_多模态大语言模型03_GPT4V图文特性_图文联合提问_少量样本上下文学习_识图内容_多帧时序分析_GPT4V和Gemini API调用---人工智能工作笔记0190
可以看到GPT4V支持,可以向大模型输入图片和文本,后,然后让大模型分析得到结果,也就是大模型可以接收图片和文本,然后从中学习,比如以上就是,提供给大模型,教大模型如何看仪表盘的几个图片,第一个图片说指针到90,表示90迈,第二个到30是30迈,问大模型。然后计数,但是计数可能不太准,因为,他是对图片进行了patch,有可能会把图片切分以后,个数计数会不准确.可以看到Gemini的特点是,他可以直接由模型生成图片,而无需,用大模型去调用图片生成模块,来生成图片。原创 2024-05-10 11:44:21 · 168 阅读 · 0 评论 -
人工智能_大模型054_多模态大语言模型02_图文对齐_openai clip模型_中文Chinese Clip模型_图像内容识别_目标检测_图像分割_GPT4V图文能力---人工智能工作笔记0189
置的,其次,他把图片对应的文本,也要token化,可以看到上面紫色部分T1 T2 T3这是文本token化后的内容,然后,接下来要做的就是要计算文本token和。2.可以看到之后大模型学习以后,在输入其他文本,就可以依据文本,快速找到文本对应的图片,也可以通过图片,找到对应的文本,就实现了,图片找文本,文本找图片的功能.然后,如果需要目标检测的话,那么就需要把图像分割的大小,进一步缩小,提高到region级别,切分的要更小一点,比如人脸检测等,需要这个,Detr就是这样弄的.原创 2024-05-10 11:42:45 · 230 阅读 · 2 评论 -
人工智能_大模型052_模型微调012_模型训练结果对比_模型训练过程梳理---人工智能工作笔记0187
数据少的类别数据绝对数量也充足时,Downsample 一般比 Upsample 效果好 如果有1000万条数据和 一个问题的训练数据是200条,那么。web抓取:近似的数据 比如我们要做一个导航的大模型,比如去故宫怎么走,可以百度,找到路线以后,整理出过程来,做为训练数据。比如一个问题的数据有100万条训练数据,一个问题的训练数据有10条,这样肯定不行,尽量均衡.非常重要,直接决定模型的效果,去除不相干的数据,除去冗余数据,除去误导数据.自然来源:比如业务的日志,以前旧系统的数据,是真实的数据。原创 2024-05-08 15:57:31 · 90 阅读 · 0 评论 -
人工智能_大模型051_模型微调011_模型数据_模型训练数据记录---人工智能工作笔记0186
E:\2024\人工智能\fine-tuning-lab\fine-tuning-lab-4\data\combine_and_split.py。E:\2024\人工智能\fine-tuning-lab\fine-tuning-lab-4\data\combine_and_split.py。E:\2024\人工智能\fine-tuning-lab\fine-tuning-lab-4\data\convert_format.py。如果我们做自己的训练数据,可以利用gpt等,造各种场景的数据进行训练。原创 2024-05-08 09:14:36 · 84 阅读 · 0 评论 -
人工智能_大模型050_模型微调010_模型数据_模型WEB界面代码记录---人工智能工作笔记0185
E:\2024\人工智能\fine-tuning-lab\fine-tuning-lab-4\web_demo\chatglm3_origin.sh。E:\2024\人工智能\fine-tuning-lab\fine-tuning-lab-4\web_demo\webui_llama2.py。E:\2024\人工智能\fine-tuning-lab\fine-tuning-lab-4\web_demo\chatglm3_pt2.sh。放到资源中,提供下载,这里就不贴出来了,太大了.训练过程中用到的依赖。原创 2024-05-08 09:14:03 · 84 阅读 · 0 评论 -
人工智能_大模型049_模型微调009_llama2模型训练_代码分析和实现_代码记录---人工智能工作笔记0184
E:\2024\人工智能\fine-tuning-lab\fine-tuning-lab-4\llama2\prompt_helper.py。E:\2024\人工智能\fine-tuning-lab\fine-tuning-lab-4\llama2\data_helper.py。E:\2024\人工智能\fine-tuning-lab\fine-tuning-lab-4\llama2\main_qlora.py。开源的,已有的代码,改一些参数,去使用,就是自己去写训练代码了,包括对训练数据的拼接和加载.原创 2024-05-07 09:08:38 · 126 阅读 · 0 评论 -
人工智能_大模型048_模型微调008_Llama2中Function Calling调用_chatglm3_llama2模型训练_代码分析和实现---人工智能工作笔记0183
然后:E:\2024\人工智能\fine-tuning-lab\fine-tuning-lab-4\chatglm3\pt2_train.sh。E:\2024\人工智能\fine-tuning-lab\fine-tuning-lab-4\chatglm3\lora_train.sh。E:\2024\人工智能\fine-tuning-lab\fine-tuning-lab-4\chatglm3\lora_eval.sh。1. 我们自定义 user、assistant、search、return 四个前缀。原创 2024-05-07 09:07:11 · 230 阅读 · 0 评论 -
人工智能_大模型047_模型微调007_QLora轻量化微调原理_模型精度压缩原理_AdaLoRA微调原理_模型微调实战ChatGLM3数据拼接---人工智能工作笔记0182
2.FP16 半精度:是16位,来表示,一个矩阵中的一个维度数据,同样前面第一位是,符号位,表示正负,然后中间部分5是数据的数量级,也就是一个数的,整数部分,后面10,这个表示精度是小数部分.1.PF32 单精度 是标准的模型:可以看到最头上s是,符号位,表示正负,然后中间8位,表示数量级,也就是一个数的,整数部分,然后后面的23,是精度,表示小数部分.3.INT8 是4分之一精度了,这个的做法,就是,直接把16位的,数量级部分,也就是整数部分,直接丢掉,然后把后面的小数部分,转换成。原创 2024-05-06 15:19:57 · 291 阅读 · 0 评论 -
人工智能_大模型046_模型微调006_轻量化微调原理_Prompt-Tuning原理_P-Tunning原理_Prefix-Tuning原理_LoRA微调原理_低秩矩阵---人工智能工作笔记0181
但是实际上,我们说,之前transformer中内部结构那里,实际上只是一个头的,当然,gpt-3.5有12个,就是假设有12个矩阵,每个矩阵,前面都需要添加这个可训练的低秩矩阵. 但是当然每个层前面添加的。他俩,组成A B 矩阵,相乘,然后得到一个 跟原来 参数矩阵 一样形状 shape的矩阵,然后,训练以后把,训练以后的矩阵和原来的矩阵一叠加 就出来一个新的模型了.P-Tuning这样的方法,他的做法是,用生成器,生成上诉的伪embeddings,不过这个生成器的参数是可以训练的,其实。原创 2024-05-06 10:08:05 · 133 阅读 · 0 评论 -
人工智能_大模型045_模型微调005_训练_预训练_微调_轻量化微调_Transformer原理和模型推理过程_LM Head_SelfAttention---人工智能工作笔记0180
3.然后再来看Fine-Tuning,这个是微调,表示在预训练的模型基础上,也就是拿了很多语料训练出来的模型基础上,然后再拿一些,垂直领域的知识,也就是某些专业领域的知识,拿过来,然后,叫做添加一个HEAD层,和原来的模型,放到一起,进行训练,这样相当于调整了原来的参数,并且添加了一些参数.这个训练过程也很慢,消耗很大.然后我们我们之前做的手写体识别就是,完全找了一些垂直领域的专业知识,直接训练的,没有基于什么模型,所以是直接的训练,training,这个模型比较小.原创 2024-04-30 14:46:42 · 66 阅读 · 0 评论 -
人工智能_大模型044_模型微调004_随机梯度下降优化_常见损失计算算法_手写简单神经网络_实现手写体识别---人工智能工作笔记0179
然后对于,训练过程我们知道,其实就是让,训练所用的神经网络嵌套函数,也就是让很多神经元,可以看到常用的距离计算,有,其实这个距离计算,就是 预测值和结果值 的距离计算。epoch,就是执行一轮,就是一个epoch,一个epoch,也就传入一批的数据。然后对于,梯度下降,为了让训练的速度更好,更快的下降,又做了很多算法,可以看到。2.余弦距离:就是一个坐标系中,两个点,每个点和原点连起来,形成的夹角的角度.以上的代码中,使用了最简单的,神经网络模型来进行的,模型训练。可以看到和上面说的过程是一样的.原创 2024-04-29 17:08:37 · 259 阅读 · 0 评论 -
人工智能_大模型043_模型微调003_测试训练后模型_加载checkpoint继续训练_模型原理_神经网络算法原理_最小神经元_常用损失函数_学习率和BatchSize---人工智能工作笔记0178
当我们有x,y的训练数据的时候,我们仅仅先拿出x,做为输入,然后,初始化一个a,b以后,然后用x,带入以后,得到一个y值,这个y值再去做为下一个神经元的x,输入,然后再去进行,根据我们提供的第二个神经元的a,b计算,又得到一个新的y值,做为下一个神经元的x输入,这样直到得到最终的y值.各种问题,变的通用,那么这个函数,就需要有非常非常多的,凸函数,嵌套,成一个大的函数,其中,在高纬度空间中,包含非常多的凸函数,要求所有的凸函数,都要能收敛获取到最优解,那么,这整个。原创 2024-04-29 15:47:47 · 221 阅读 · 0 评论 -
人工智能_大模型040_AutoGPT智能体工具编写003_大模型Tools完善_主流调用流程编写_智能体测试启动_该智能体在GPT4上测试通过--人工智能工作笔记0175
可以看到,然后这些工具,其实都是,我们对应的Tools文件夹下的Tools.py文件中定义的,我们去看看。然后对应我们定义的tools文件夹中的这些tool,有些tool是需要用到prompt模板的,这个时候。可以看到在这个prompt中,突出强调了,不要让大模型,自己去假设变量的值,或者假设一个值,要根据用户,或者资料中的值进行分析,如果资料没有提到这个值,而大模型需要,大模型应该。然后再来看项目中的utils文件夹中的文件我们也给出,这个是一些工具类,用来,原创 2024-04-25 16:23:18 · 60 阅读 · 0 评论 -
人工智能_大模型038_AutoGPT智能体工具编写001_长短时记忆_创建智能体主题流程_工具调用Action_智能体prompt编写---人工智能工作笔记0173
5.开始执行思考过程,首先根据大模型的结果,判断是否需要调用工具,如果是N执行工具,得到结果以后,然后把结果记录到短时记忆,然后,再去填充prompt模板,然后再去调用大模型,这样反复执行。2.然后,去首先去检索向量数据库,然后 用长时记忆去存储检索结果,然后用短时记忆 来存储 临时结果,比如大模型调用的某个工具执行的结果.6.如果大模型判断不需要调用工具,那么直接执行,去生成最终答案,然后再去更新长时记忆,也就是。然后这一节我们来自己制作一个智能体,来感受一下,实际上现在,大模型还是可以做很多功能的.原创 2024-04-18 18:13:01 · 161 阅读 · 0 评论 -
人工智能_大模型037_LLM大模型开发工具链003_提示词调优与回归测试_版本管理_NLP语义相似性对比_模型调整模型_LangSmith和prompt Flow用法---人工智能工作笔记0172
Azure 云服务:https://learn.microsoft.com/en-us/azure/machine-learning/prompt-flow/get-started-prompt-flow?可以看懂具体的执行结果,对应的统计信息都有了,这个打印出来的是中间结果,我们去看一下langsmith的最终结果。上面我们对于判断,大模型输出的结果对不对,我们仅仅是用了对比的方法,就用我们整理的评测数据,正确的结果。然后再来看看如何使用langsmith,这个非常简单了,他会自动去记录,很方便了。原创 2024-04-17 10:02:14 · 181 阅读 · 0 评论 -
人工智能_大模型035_LLM大模型开发工具链001_大模型产品测评调试_调用过程监控LangFuse_LangFuse监控原生调用模型以及监控LangChain调用模型---人工智能工作笔记0170
这个是langfuse的官网,可以看到,当你调用大模型,那么整个的调用过程,包括,每次调用访问的哪些接口,返回了什么数据,都有记录,方便调试用.可以看到每次调用发送和接收的token都有显示.这个就是一个span,然后prompt-embedding,大模型去分析,这个是generation,因为和大模型交互的,都叫generation,然后。可以看到关于如何使用,首先需要去注册一个账号,然后创建API key,有两个,一个是公有Key,一个是私有Key,到时候使用的时候传给langfuse。原创 2024-04-16 15:50:40 · 104 阅读 · 0 评论 -
人工智能_大模型036_LLM大模型开发工具链002_LangFuse监控LangChain_创建Session并调试_数据集与测试_在线标注_prompt评估调优--人工智能工作笔记0171
包含了,输入,以及正确的输出的,上传了以后,就可以使用这个数据集,来评测我们的prompt,这个大模型应用的正确率是多少了.然后如果我们有自己的一个数据集,我们也可以上传到langfuse上去,这个数据集,是我们整理好,招人,或者外包,让人把数据,都标注好,其实就是对于问题,给出正确的输出答案,比如,有一个数据,然后再来看,如果一个用户,跟大模型的多次沟通,这个过程,我们放到一个session中去管理,通过这种方式可以看到,大模型在,一个产品,需要多次调用大模型的时候,每个过程的。原创 2024-04-16 15:44:47 · 578 阅读 · 0 评论