跟无神学AI
文章平均质量分 61
此专栏收录AI相关内容,喜欢的朋友们点点关注哦!
AIzealot无
也曾有一天,你屹立世界之巅,为大千宇宙中最闪亮的星,世界再无阴霾,阳光明媚。
专攻AI相关内容,目前的研究集中于LLMs以及AI在生物领域的应用和生物信息学上,未来计算机视觉领域有所倾向。
欢迎关注博主一起学习AI领域的相关知识。
展开
-
跟无神学AI之Unet解读——原创
医学图像分割任务往往数据集很少,所以考虑对模型架构进行变化使得模型能够适应这种少数据量的任务是很关键的。U-Net是一个很经典的医学图像分割模型,其网络结构的信息流呈现一个U状,所以得名。可以在单个GPU上推理512 * 512大小的医学图像分割(实例和语义)。笔者最近入坑医学图像处理领域,随阅读之并做一个理解性的学习资料的总结。原创 2024-05-16 18:04:11 · 928 阅读 · 1 评论 -
Ilya Sutskever opemnAI前联合创始人和首席科学家AGI阅读清单
立志实现 AGI 的 Ilya Sutskever 曾向另一位 AGI 孤勇者 John Carmack 推荐了一份精选的阅读清单,内含尖端的研究论文及资料,包括神经网络架构与理论、深度学习应用、机器学习模型优化与正则化、机器学习系统与算法、人工智能理论与哲学、计算复杂性与算法随机性等干货知识。该论文介绍了关系循环神经网络(Relational-RNN)是一种用于无监督关系学习的深度学习框架,利用好奇心驱动的方法来探索和学习数据中的潜在关系。原创 2024-05-16 14:58:58 · 624 阅读 · 0 评论 -
跟无神学AI之Tensorflow笔记搭建网络八股
虽然Pytorch在论文中使用较多,但是像Alphafold在蛋白质结构预测的模型,仍然是用Tensorflow写成,遂近期在学其中的语法。Dense()为全连接层,即其中的D1块是一个3层的全连接网络,创建类在Tensorflow中的风格一样。5.在fit中进行训练过程,告知训练过程:测试集/训练集的输入特征、标签,batch、迭代次数。后者是创建类的模型,一般后者肯定更常用,复杂的模型不能一定的不可能全是前向神经网络。类方法中的Model指的是继承Tensorflow中的model类。原创 2024-03-07 19:19:34 · 467 阅读 · 0 评论 -
跟无神学AI之强化学习中的马尔可夫决策过程(Markov Decision Process, MDP)
在表中建模要素的基础上,MDP按如下方式进行组织:智能体对初始环境进行感知,按策略实施动作,环境受动作影响进入新的状态,并反馈给智能体一个奖励。随后智能体基于采取新的策略,与环境持续交互。MDP的图模型包含状态节点和动作节点,状态到动作的边由策略定义,动作到状态的边由环境动力项(参见求解部分)定义。的模拟中,智能体会感知当前的系统状态,按策略对环境实施动作,从而改变环境的状态并得到奖励,奖励随时间的积累被称为回报。基于一组交互对象,即智能体和环境进行构建,所具有的要素包括状态、动作、策略和奖励。原创 2024-02-22 11:38:59 · 433 阅读 · 0 评论 -
跟无神学AI之一文读尽Sora
之前的模型对于视频的处理的功能都比较狭窄。Sora作为通用的视频数据处理大模型,能够处理尺寸不一的视频,生成分辨率比较高的视频。原创 2024-02-19 19:34:57 · 1100 阅读 · 1 评论 -
Datawhale组队学习 Task10 环境影响
环境影响是一个巨大的话题。一切都是相互联系的,所以很难得出一个干净的定量指标。但要真正着眼于全局。尽管如今大语言模型的还很少,但它正在快速增长。大语言模型的通用性提供了节省成本的潜力(“一次性训练”并适用于许多不同的任务)。但它们的成本要高得多,需要可能需要重新训练。这里的权衡是什么?缓解措施尝试在使用清洁能源的数据中心训练模型碳抵消的效果各不相同(森林种植活动产生单一种植)更高效的模型架构、训练程序、硬件(但要注意反弹效应)在论文报告排放量。原创 2024-01-30 10:08:32 · 818 阅读 · 0 评论 -
跟无神学AI之Prompt
通过精心设计的Prompt,可以指导模型生成符合预期的回答、文本续写、翻译等。Prompt翻译为中文为提示词,在大模型的特定领域指的是大模型使用者给大模型提交的一种有一定格式的交互命令,让我们看看科大讯飞的大模型给出的答案——综上所述,Prompt是人工智能领域中一个重要的概念,它通过为模型提供具体的输入来指导其生成过程,从而在各种应用场景中实现对模型行为的精细控制。可以看出这些材料是有原作的痕迹,该模型有融合原作的成分,即使用原版星际宝贝的元素进行过训练。在大模型时代会写prompt变得很重要。原创 2024-01-25 20:46:20 · 2000 阅读 · 0 评论 -
跟无神学AI之可解释性AI
可解释性AI(XAI)旨在提高人工智能系统的透明度和可理解性,使人们更好地理解AI的决策过程和原理。XAI的研究和应用涵盖了从算法改进、可视化技术到应用场景等多个方面,为解决复杂问题提供了新的思路和方法。以生物的蛋白质预测为例,已知蛋白序列,通过大模型能够预测其空间结构,但大模型也为一个黑箱模型,虽然有一些可信度指标可以作为大模型的输出,但总归是缺乏可解释性的。因此,AI在可解释的领域上还有很长的路要走,就跟人类需要讲求科学原理一样,模型也需要有其从输入到输出映射的可解释的路径。原创 2024-01-25 21:34:25 · 327 阅读 · 0 评论 -
大模型实战营Day4 XTuner 大模型单卡低成本微调实战
同第三节的建立数据库中所提及到的,如果通用大模型在专用领域表现能力不强,如何改进——第三者在显存和GPU之间进行了一个整合,如果GPU满会到显存里面跑,速度会慢一些。LoRA的原理是在线性层平行增加一个两个小层的分支,因而能够减少训练的耗费。构建角色和对话模板,这项工作由Xtuner做过了,可以借此一键完成。欢迎关注无神,一起学大模型和AI方面的前沿知识!建立知识库或者微调,本节课进行的则是微调。其能支持的模型的硬件资源比较广泛。原创 2024-01-13 20:28:47 · 459 阅读 · 0 评论 -
大模型训练营Day3 基于 InternLM 和 LangChain 搭建你的知识库 作业
基于医疗领域搭建了一个医疗问答系统。PubMed 是一个免费搜索引擎,主要提供生命科学和生物医学主题的内容。本篇记录大模型训练营第三次的作业,属实是拖延症本症患者。原创 2024-01-14 11:20:20 · 407 阅读 · 0 评论 -
跟着无神学Pytorch Day3 自动梯度下降
parametersgradients正常的神经网络的训练分为前向传播和反向的梯度下降,即分别为输入数据根据神经网络的处理后产生一个输出结果,根据输出结果去调整神经网络的权重的两个过程。原创 2023-08-31 23:24:14 · 57 阅读 · 0 评论 -
跟着无神学Pytorch系列Day1
PyTorch算是相当简洁优雅且高效快速的框架设计追求最少的封装,尽量避免重复造轮子算是所有的框架中面向对象设计的最优雅的一个,设计最符合人们的思维,它让用户尽可能地专注于实现自己的想法大佬支持,与google的Tensorflow类似,FAIR的支持足以确保PyTorch获得持续的开发更新不错的的文档(相比FB的其他项目,PyTorch的文档简直算是完善了,参考Thrift),PyTorch作者亲自维护的论坛 供用户交流和求教问题入门简单。原创 2023-08-31 17:25:33 · 39 阅读 · 0 评论 -
跟着无神学Pytorch Day4 自动梯度下降成员的具体原理和成员设置的使用方式以及规则
梯度下降算法在Pytorch中使用DAG这种数据结构实现,是一种有向无环图,学过DS的可知其为一种体现多个元素之间多对多关系的数据结构。after eachDAG在Pytorch中是动态的,允许我们在模型中控制其状态,比如在每个轮次中改变大小、形状和操作。原创 2023-09-01 16:19:29 · 46 阅读 · 1 评论 -
跟着无神学Pytorch系列Day2
Pytorch是科学论文中火热的深度学习框架之一,想从事深度学习方向,有学术意愿的小伙伴们不要迟疑,关注无神一起学主流框架Pytorch。原创 2023-08-31 17:54:31 · 28 阅读 · 0 评论 -
Datawhale 组队学习Task8大模型的有害性(上/下)
有毒性和假信息(toxicity 和 disinformation)大型语言模型可能产生攻击性的、有害的内容,或者产生误导性的内容。这些伤害涉及的是人,即某个人收到一段文本并因此感到困扰或受伤。这意味着需要将这些伤害视为文本的属性,从更广泛的社会语境中考虑。在讨论大型语言模型之前,我们有必要将有毒性和假信息置于内容审核的问题中来理解。在有毒性和假信息的背景下,语言模型可以有两种用途:一是它们可以被用来生成有毒的内容,恶意行为者可以利用它们来扩大自己的信息传播;原创 2024-01-28 16:09:58 · 1036 阅读 · 0 评论 -
Datawhale 组队学习之大模型理论基础 Task7 分布式训练
近年来,模型规模越来越大,对硬件(算力、内存)的发展提出要求。因为的存在,单一设持续提高芯片的集成越来越困难,难以跟上模型扩大的需求。为了解决算力增速不足的问题,人们考虑用多节点集群进行分布式训练,以提升算力。原创 2024-01-26 21:38:03 · 468 阅读 · 0 评论 -
Datawhale 大模型基础 Task6 模型之Adaptation篇 笔记
顾名思义,即改变模型少量的参数,给其加上少量的头或者人工给予正确的提示等方法来试图减少训练资源达到提升模型在下游具体任务上性能的目的,其表达能力相当复杂,是以主干模型为基础的。适应主要分为:预训练模型(主干部分的训练,最消耗算力);定义损失函数来作为适配的标准;轻量微调和微调的思路大题相似,分为轻量级微调的变体、提示词微调、前缀微调、适配器微调。适应的方法主要有:探测、微调(可以提升零样本性能、改善泛化能力、获取新任务的能力)。显然,建立知识库也是另一种能够提升模型在下游任务上的性能的另一种方法。原创 2024-01-24 21:32:20 · 360 阅读 · 0 评论 -
大模型实战营Day5笔记
大模型部署是指将训练好的模型在特定的软硬件环境中启动的过程,使模型能够接收输入并返回预测结果。大模型的内存开销巨大,7B模型仅权重需要14G内存。另外大模型是自回归生成,需要缓存Attention的 k/v。主要包括四个部分:1. 持续批处理;2. 有状态的推理;4. 高性能 cuda kernel。量化可以大大降低显存,同时提升推理速度。LLM 是典型的访存密集型任务。4. Cuda Kernel (算子融合可以有效减少访存次数)核心功能——推理引擎 TurboMind。原创 2024-01-22 23:58:12 · 398 阅读 · 0 评论 -
大模型实战营 Day5作业
使用 LMDeploy 以本地对话、网页Gradio、API服务中的一种方式部署 InternLM-Chat-7B 模型,生成 300 字的小故事(需截图)TurboMind 推理+命令行本地对话。TurboMind推理+API服务。原创 2024-01-22 23:51:54 · 391 阅读 · 0 评论 -
Datawhale 大模型基础理论 Day1 引言
大语言模型具有参数量以及训练的数据集大的特点,当然数据集大也意味着消耗的算力资源很大,当然国外企业也能以GPU的显卡资源抑制我国AI行业的发展,比如某美丽国和三大显卡公司对其政策的执行。语言模型可以被用来评估输入的质量,也可以根据prompt生成对应的内容(作画、描述、回答等)语言模型的概念:即能够赋予每个有意义的词(token)以一定的概率的一个函数的集合。长短期记忆模型通过门控结构,在一定程度上缓解了模型对长序列的信息的处理能力。温度,可以控制模型生成中的变异量。ok,今天的总结到此结束。原创 2024-01-15 22:18:38 · 437 阅读 · 0 评论 -
大模型训练营Day3 基于 InternLM 和 LangChain 搭建你的知识库
前者不需要算力,可以实时加入新知识,但是基座模型的上限极大程度决定其模型的上限。而后者无法实时更新,但是由于其是一个改变少数层的新的大模型,仍然具有大模型的广阔知识的优势。微调呢是冻结一定层的参数然后去训练改变其产生分类的少数几层的参数。简单总结,大模型是根据数据集训练,很难使用具有实时性的数据进行重新训练(因为训练成本需要海量资源)。而LangChain这个开源框架能够比较好地用于RAG这个方面的构建,为MIT一个创业者的发起,目前为大模型领域比较火的框架。本次的授课人是一个提示词开发项目的负责人。原创 2024-01-11 21:35:31 · 463 阅读 · 0 评论 -
大模型训练营Day2 homework
1.使用 InternLM-Chat-7B 模型生成 300 字的小故事。2.完成 Lagent 工具调用 Demo 创作部署(需截图)这里需要在本地上,原因操作手册中有提及。模型尝试用py的函数进行解答。可能快到DDL用的人很多?有以下提示则安装包成功。原创 2024-01-09 17:56:49 · 396 阅读 · 0 评论 -
大模型实战营Day2 轻松玩转书生·浦语大模型趣味Demo
同时宋兄还是很多开源项目的重要参与者,可以说是很有实力。好了,今天到此结束,欢迎关注无神,一起学习LLMs。这里需要在本地上,原因操作手册中有提及。其余疑问可以在评论区和讨论区提出。有以下提示则安装包成功。原创 2024-01-08 17:56:42 · 381 阅读 · 0 评论 -
大模型实战营Day1 书生·浦语大模型全链路开源体系
第一天学习内容的讲授者为陈恺,是上海人工智能实验室的大牛,毕业于我大清。大模型使得传统对于特定任务,一个模型解决一个问题的方式有了重大突破和改变。本篇为笔者参加实战营第一天的学习笔记,后续会持续更新。主打的是一手参数量很小,但是性能在一些测试集上很高。本次课程的核心内容到此告一段落。原创 2024-01-05 10:25:20 · 470 阅读 · 0 评论 -
跟着无神学机器学习之一文读尽损失函数
总的来说,损失函数的形式千变万化,但追究溯源还是万变不离其宗。其本质便是给出一个能较全面合理的描述两个特征或集合之间的相似性度量或距离度量,针对某些特定的情况,如类别不平衡等,给予适当的惩罚因子进行权重的加减。大多数的损失都是基于最原始的损失一步步改进的,或提出更一般的形式,或提出更加具体实例化的形式。原创 2023-10-02 22:01:55 · 75 阅读 · 0 评论 -
深度学习作业——使用AE和TSNE对MINIST数据集进行可视化
optimizer.zero_grad() # 优化器梯度清零。# 使用AE和TSNE对MNIST进行可视化。有用的话,一键三连哦,码字不易!废话不多,直接上源码。原创 2023-10-01 19:49:34 · 126 阅读 · 0 评论 -
深度学习作业——使用长短期记忆网络进行中文分词(基于jieba和Pytorch)
此函数进行输入token的对应索引的查找,若不存在则返回<unk>返回的索引。# 此函数进行数据集的构建,输入的参数为本地数据集的路径,返回值为训练集、测试集、词表。# 若不存在,则将该tokens中的各个token加入列表中,并建立字典索引。# 将索引到token的映射存为字典,键为索引,值为对应的token。# 定义类型读取转换,需要将.txt文件转换为DataFrame类型。# 查找输入标签对应的索引值。# 定义一个词表类,以将自然语言映射为向量。# 返回值为词表的长度。# 以此函数构建词表。原创 2023-10-01 19:47:45 · 69 阅读 · 0 评论 -
深度学习作业——使用GAN(对抗神经网络)动画人脸生成(Pytorch实现)
self.deconv2 = nn.ConvTranspose2d(128, 64, kernel_size=4, stride=2, padding=1) # 输出:64*32*32。self.deconv3 = nn.ConvTranspose2d(64, 3, kernel_size=4, stride=2, padding=1) # 输出:3*64*64。# 进行产生器以及分辨器的实例化,并且定义损失函数和优化器,损失函数采用BCEloss,优化器采用Adam。跟着无神学机器学习。原创 2023-10-01 19:44:13 · 226 阅读 · 0 评论 -
深度学习作业——使用numpy进行矩阵乘法(从两个.txt文件中读取并自动创建结果.txt文件)
np.savetxt("./matrixC.txt",mC,fmt="%d",delimiter=" ") #输出为整数并用' '进行分割。#两个矩阵相乘,matrixA.txt与matrixB.txt文件与所保存结果matrixC默认全在当前路径下。mC = np.matmul(mA,mB) # 矩阵乘法。跟着无神有更多资源进行ML的学习!资源准备不易,一键三连哦。废话不多说,直接上源码。原创 2023-10-01 19:40:08 · 31 阅读 · 0 评论 -
深度学习作业——用逻辑回归对散点图进行预测(numpy和matplotlib实现)
(1)以下代码画出xdata, ydata的散点图以及线性回归的函数图。觉得有用点个关注,跟着无神,有更多资源学习ML。资源准备不易,一键三连哦。废话不多说,直接上源码。原创 2023-10-01 19:37:39 · 135 阅读 · 0 评论 -
跟无神学机器学习之大模型GPT4技术报告详解
本文更像是对于GPT4的使用手册而不是技术报告。码字不易,欢迎关注无神一起学习机器学习。原创 2023-09-29 23:22:28 · 85 阅读 · 0 评论 -
《BERT:Pre-training of Deep Bidirectional Transformers for Language Understanding》之 Bert详解
主要分为Bert预训练和Fine-Tuning两个部分。原创 2023-09-28 23:33:33 · 37 阅读 · 0 评论 -
《Attention is all you need》之Transformer详解
Transformer是编码器解码器模型的发展,是chatGPT的前身也是应用到现在很多LLMs上的重要模型之一,对机器学习尤其是深度学习的影响很深远。每一个从事AI方面无论是否是确切的深度学习领域的从业者都比较深入地了解此模型。今天,无神带大家解读其出处——发表自机器学习三大顶会之一的偏向学术的NIPS《Attention is all you need》。本论文由谷歌的学者所做。模型由左边的编码器和右边的解码器构成,图示的Nx代表图示的结构重复了多少次,其N都是6,所以该重复结构有6个。每一层(图示左边原创 2023-09-27 23:25:43 · 50 阅读 · 0 评论 -
跟着无神一起读PAPERS 之Day2 BLIP-2:使用冻结图像编码器和大语言模型的自举法语言图形预训练
至此,该文章的核心内容介绍完毕,有疑问可以评论区讨论。欢迎关注无神一起读Papers。原创 2023-09-21 16:42:18 · 126 阅读 · 0 评论 -
跟着无神一起读PAPERS 之Day1 基于深度学习的K cat预测能够改善限制酶模型的重构
今天的paper选自nature,为深度学习与生物领域的交叉研究。那么跟着无神一起来看看具体内容吧。原创 2023-09-20 16:39:20 · 92 阅读 · 0 评论 -
以YOLOv8为例详解YOLO系列
主要有检测、分割、分类等。这些表示所要执行的任务的类负责将组成部分写好的各个方法集成在一起完成特定的任务。负责输出的模块主要进行与编码器对接,并且进行参数的最后处理,其中主要有:接受编码器的输入;产生锚(anchor,俗一点来说就是框住物体的方框);以及重新调整超参数的函数。好了,就到这里了,对于YOLO的解读。欢迎关注无神一起学机器学习。原创 2023-09-16 23:00:40 · 2398 阅读 · 1 评论