AIzealot无-CSDN博客

原创跟无神学AI之Unet解读——原创

医学图像分割任务往往数据集很少，所以考虑对模型架构进行变化使得模型能够适应这种少数据量的任务是很关键的。U-Net是一个很经典的医学图像分割模型，其网络结构的信息流呈现一个U状，所以得名。可以在单个GPU上推理512 * 512大小的医学图像分割（实例和语义）。笔者最近入坑医学图像处理领域，随阅读之并做一个理解性的学习资料的总结。

2024-05-16 18:04:11 929 1

原创 Ilya Sutskever opemnAI前联合创始人和首席科学家AGI阅读清单

立志实现 AGI 的 Ilya Sutskever 曾向另一位 AGI 孤勇者 John Carmack 推荐了一份精选的阅读清单，内含尖端的研究论文及资料，包括神经网络架构与理论、深度学习应用、机器学习模型优化与正则化、机器学习系统与算法、人工智能理论与哲学、计算复杂性与算法随机性等干货知识。该论文介绍了关系循环神经网络（Relational-RNN）是一种用于无监督关系学习的深度学习框架，利用好奇心驱动的方法来探索和学习数据中的潜在关系。

2024-05-16 14:58:58 626

原创跟无神学AI之Tensorflow笔记搭建网络八股

虽然Pytorch在论文中使用较多，但是像Alphafold在蛋白质结构预测的模型，仍然是用Tensorflow写成，遂近期在学其中的语法。Dense（）为全连接层，即其中的D1块是一个3层的全连接网络，创建类在Tensorflow中的风格一样。5.在fit中进行训练过程，告知训练过程：测试集/训练集的输入特征、标签，batch、迭代次数。后者是创建类的模型，一般后者肯定更常用，复杂的模型不能一定的不可能全是前向神经网络。类方法中的Model指的是继承Tensorflow中的model类。

2024-03-07 19:19:34 467

原创跟无神学AI之强化学习中的马尔可夫决策过程（Markov Decision Process, MDP）

在表中建模要素的基础上，MDP按如下方式进行组织：智能体对初始环境进行感知，按策略实施动作，环境受动作影响进入新的状态，并反馈给智能体一个奖励。随后智能体基于采取新的策略，与环境持续交互。MDP的图模型包含状态节点和动作节点，状态到动作的边由策略定义，动作到状态的边由环境动力项（参见求解部分）定义。的模拟中，智能体会感知当前的系统状态，按策略对环境实施动作，从而改变环境的状态并得到奖励，奖励随时间的积累被称为回报。基于一组交互对象，即智能体和环境进行构建，所具有的要素包括状态、动作、策略和奖励。

2024-02-22 11:38:59 433

原创跟无神学生信之R语言语法

赋值号在R中为

2024-02-19 23:25:07 380

原创跟无神学AI之一文读尽Sora

之前的模型对于视频的处理的功能都比较狭窄。Sora作为通用的视频数据处理大模型，能够处理尺寸不一的视频，生成分辨率比较高的视频。

2024-02-19 19:34:57 1102 1

原创 Windows10使用u盘制作linux启动盘踩坑记

进入bios模式（博主目前用的联想yoga系列是Fn+F2），调整计算机启动的模式，注意安全启动设置成diabled，要把usb启动移到最上面的一栏。设置完成后保存重启即可。在Ubuntu官网下载镜像，很简单找到对应版本和机器型号，注意区分64位和x86，基本上都是64，不确定的话去设置中查看。使用烧录软件，将镜像烧录到U盘中，烧录软件用这个或者ubuntu官方提供的都可。准备一个较大的u盘，越大越好，现在的配置一般都是16G+，博主n年前的就是32G。此时重启后会进入安装程序，按照提示一步步进行即可。

2024-02-18 16:14:05 535

原创跟无神学生信之R语言的Debug工具

可见R语言作为一个数据处理所用的语言，其中的traceback和python中的十分类似，当执行错误时会打印出函数调用栈；debug和browser也在pycharm中有类似功能；trace和recover的作用分别为在一个函数的某个位置插入修正漏洞的代码；而recover则允许修改出现bug时的行为。JHU教授的R语言课程总的来说比较基础，内容浅薄，博主对此的学习也到了尾声。Bug中文为虫子，在cs领域为漏洞的意思。觉得有用的话请给个一键三连哦！欢迎关注无神一起学生信！

2024-02-18 15:17:24 357

原创开源活动汇集网站

浏览开源信息之间发现一较好的开源网站，需要找开源活动的厚米们可以给个一键三连哦。

2024-02-08 20:05:48 377

原创生物信息学高质量刊物

ncs上文章水平越来越差，没有发现变好的趋势。属于普通人可达到的巅峰，PHD中一篇基本可以在几乎任何学校躺平到毕业了，中国内地的phd student能发到前两档的两只手都数的过来。比4略低，周围的朋友一般在NC悲剧之后转投这三个，但个人认为因为稿源原因，会和4逐渐拉开差距。难度稍低于2档，这两本侧重点不同，ng数据量和结论更突出，nmi算法更突出。，很少有纯计算能上的，一般都需要一定的湿实验验证，在计算领域某些场合认可度甚至高于正刊。as会有少量生信文章，cr关系稿较多，nar会有些惨不忍睹的。

2024-01-30 13:03:04 544

原创 Datawhale组队学习 Task10 环境影响

环境影响是一个巨大的话题。一切都是相互联系的，所以很难得出一个干净的定量指标。但要真正着眼于全局。尽管如今大语言模型的还很少，但它正在快速增长。大语言模型的通用性提供了节省成本的潜力（“一次性训练”并适用于许多不同的任务）。但它们的成本要高得多，需要可能需要重新训练。这里的权衡是什么？缓解措施尝试在使用清洁能源的数据中心训练模型碳抵消的效果各不相同（森林种植活动产生单一种植）更高效的模型架构、训练程序、硬件（但要注意反弹效应）在论文报告排放量。

2024-01-30 10:08:32 818

原创 Datawhale 组队学习之大模型理论基础Task9 大模型法律

比如大模型的训练、数据的收集和使用等都需要考虑到法律的问题，法律如同一个现存的事物，用哲学的角度来说就是一个无限发展过程中的一个点，因此需要不断完善和发展，这种发展是随着法律制定者的认识而不断进行的。

2024-01-29 14:22:41 995

原创程序员的基本素养之——R语言起源、特点以及应用

R语言支持多种统计方法，如回归分析、方差分析、时间序列分析等，同时还提供了机器学习和深度学习的扩展包，使得用户能够进行复杂的模型建立和预测。R语言是一个开源的、免费的统计分析和图形化编程语言。同时，R语言拥有强大的图形绘制功能，用户可以生成高质量的图表、散点图、直方图等，以便更好地理解和展示数据。作为用于数据统计的必备技能语言，博主目前正在对R语言进行基本的学习，这也是生物信息学领域进行统计分析的必备语言之一。R语言和MATLAB都是在科学和数据分析领域中常见的编程语言，各有各的特点和适用场景。

2024-01-28 16:22:56 1196

原创 Datawhale 组队学习Task8大模型的有害性（上/下）

有毒性和假信息（toxicity 和 disinformation）大型语言模型可能产生攻击性的、有害的内容，或者产生误导性的内容。这些伤害涉及的是人，即某个人收到一段文本并因此感到困扰或受伤。这意味着需要将这些伤害视为文本的属性，从更广泛的社会语境中考虑。在讨论大型语言模型之前，我们有必要将有毒性和假信息置于内容审核的问题中来理解。在有毒性和假信息的背景下，语言模型可以有两种用途：一是它们可以被用来生成有毒的内容，恶意行为者可以利用它们来扩大自己的信息传播；

2024-01-28 16:09:58 1036

原创 Datawhale 组队学习之大模型理论基础 Task7 分布式训练

近年来，模型规模越来越大，对硬件（算力、内存）的发展提出要求。因为的存在，单一设持续提高芯片的集成越来越困难，难以跟上模型扩大的需求。为了解决算力增速不足的问题，人们考虑用多节点集群进行分布式训练，以提升算力。

2024-01-26 21:38:03 468

原创裁员风波以及如何应对

总之，面对互联网厂裁员的情况，程序员应该保持灵活性和适应性，积极准备应对可能出现的挑战。通过不断学习和提升自己的能力，以及建立强大的支持网络，可以在动荡的就业市场中保持稳定。一对来自中国的工程师夫妻在美身亡，疑因谷歌裁员致悲剧发生。在大模型技术变革下，裁员对于程序员的影响到底有多大？觉得有用的话，给个一键三连哦！

2024-01-25 21:41:07 492

原创跟无神学AI之可解释性AI

可解释性AI（XAI）旨在提高人工智能系统的透明度和可理解性，使人们更好地理解AI的决策过程和原理。XAI的研究和应用涵盖了从算法改进、可视化技术到应用场景等多个方面，为解决复杂问题提供了新的思路和方法。以生物的蛋白质预测为例，已知蛋白序列，通过大模型能够预测其空间结构，但大模型也为一个黑箱模型，虽然有一些可信度指标可以作为大模型的输出，但总归是缺乏可解释性的。因此，AI在可解释的领域上还有很长的路要走，就跟人类需要讲求科学原理一样，模型也需要有其从输入到输出映射的可解释的路径。

2024-01-25 21:34:25 327

原创跟无神学AI之Prompt

通过精心设计的Prompt，可以指导模型生成符合预期的回答、文本续写、翻译等。Prompt翻译为中文为提示词，在大模型的特定领域指的是大模型使用者给大模型提交的一种有一定格式的交互命令，让我们看看科大讯飞的大模型给出的答案——综上所述，Prompt是人工智能领域中一个重要的概念，它通过为模型提供具体的输入来指导其生成过程，从而在各种应用场景中实现对模型行为的精细控制。可以看出这些材料是有原作的痕迹，该模型有融合原作的成分，即使用原版星际宝贝的元素进行过训练。在大模型时代会写prompt变得很重要。

2024-01-25 20:46:20 2002

原创 Datawhale 大模型基础 Task6 模型之Adaptation篇笔记

顾名思义，即改变模型少量的参数，给其加上少量的头或者人工给予正确的提示等方法来试图减少训练资源达到提升模型在下游具体任务上性能的目的，其表达能力相当复杂，是以主干模型为基础的。适应主要分为：预训练模型（主干部分的训练，最消耗算力）；定义损失函数来作为适配的标准；轻量微调和微调的思路大题相似，分为轻量级微调的变体、提示词微调、前缀微调、适配器微调。适应的方法主要有：探测、微调（可以提升零样本性能、改善泛化能力、获取新任务的能力）。显然，建立知识库也是另一种能够提升模型在下游任务上的性能的另一种方法。

2024-01-24 21:32:20 360

原创第三代 DNA测序技术

以SMRT芯片为测序载体，基本原理：使用DNA聚合酶以及不同标记的四种dNTP，根据其与所测模板链结合后的发出的不同光的波长来判断碱基的类型。其关键技术是零模波导孔（Zero Mode Waveguide）——每一个SMRT包含上万个ZMW，外径100nm,波长大于其小孔直径，所以无法穿过，从而能量被限制在一个很小的范围中，这个范围正好能够覆盖当前碱基，游离的碱基仍然在黑暗中，从而能够将背景的干扰降到最低。缺点（错误率高，百分之15左右，出错是随机发生的，可以通过多次测序改正。错误率低（1-4，随机产生）

2024-01-24 18:49:43 552

原创 Datawhale Task5：模型训练篇

模型训练主要由目标函数和优化算法组成。

2024-01-24 00:15:03 998

原创大模型实战营Day6 作业

使用 OpenCompass 评测 InternLM2-Chat-7B 模型在 C-Eval 数据集上的性能。

2024-01-23 10:47:17 344

原创大模型实战营Day6 笔记

本期主题为：为何测评，因场景众多，需要统一的标准：评测的意义：传统NLP的一些评测需要：到了大模型时代，需要评测的就更多了：客观评测：有些主观题可以用模型评价模型：已有的评测框架：本次评测框架的架构图：评测流程：一些评测结果：在我们生物er紧密相关的医疗领域的一些功能组件：一些评测中的困难：觉得有用的话，给个点赞收藏加关注哦！

2024-01-23 10:16:56 593

原创大模型实战营Day5笔记

大模型部署是指将训练好的模型在特定的软硬件环境中启动的过程，使模型能够接收输入并返回预测结果。大模型的内存开销巨大，7B模型仅权重需要14G内存。另外大模型是自回归生成，需要缓存Attention的 k/v。主要包括四个部分：1. 持续批处理；2. 有状态的推理；4. 高性能 cuda kernel。量化可以大大降低显存，同时提升推理速度。LLM 是典型的访存密集型任务。4. Cuda Kernel （算子融合可以有效减少访存次数）核心功能——推理引擎 TurboMind。

2024-01-22 23:58:12 400

原创大模型实战营 Day5作业

使用 LMDeploy 以本地对话、网页Gradio、API服务中的一种方式部署 InternLM-Chat-7B 模型，生成 300 字的小故事（需截图）TurboMind 推理+命令行本地对话。TurboMind推理+API服务。

2024-01-22 23:51:54 391

原创生物信息学之同源性、相似性、一致性和直旁系同源

直系同源：在物种分化过程中，相同的祖先序列被保留到各个分化物种中的序列。比如人类和啮齿动物的血红蛋白基因。（故现在可以用小白鼠来模拟人体，其也是最常用的实验材料之一）同源性：具有共同进化祖先的两条序列称为同源序列。同源性没有程度之分，要么是同源，要么非同源，高度同源这种说法是错误的。旁系同源是通过基因复制机制产生的同源序列，是在同一个物种内部的同源基因。相似性指相同和相似残基所占的程度。当两条序列同源时，常常二者具有较强的相似性。直系同源被认为具有相似的生物学功能。一致性即序列完全一致。

2024-01-15 22:33:13 853

原创 Datawhale 大模型基础理论 Day1 引言

大语言模型具有参数量以及训练的数据集大的特点，当然数据集大也意味着消耗的算力资源很大，当然国外企业也能以GPU的显卡资源抑制我国AI行业的发展，比如某美丽国和三大显卡公司对其政策的执行。语言模型可以被用来评估输入的质量，也可以根据prompt生成对应的内容（作画、描述、回答等）语言模型的概念：即能够赋予每个有意义的词（token）以一定的概率的一个函数的集合。长短期记忆模型通过门控结构，在一定程度上缓解了模型对长序列的信息的处理能力。温度，可以控制模型生成中的变异量。ok，今天的总结到此结束。

2024-01-15 22:18:38 437

原创生物信息学及其研究方向与应用

生物信息学是生物er在AI以及cs时代的出路，所以AI以及生信一定是生物er的出路，21世纪的生物只有和最具生产力的行业结合，才能爆发出生命力，哦不，拿到高薪。在《生物信息学与基因功能组学》中，其作者将生物信息学定义为使用计算机数据库和计算机算法来分析蛋白质、基因和组成生命体的DNA的完整集合（基因组）的学科。其核心课题是识别和建立不同生物体的基因或其他基因组结构的关系和功能，通过比价不同物种的同源基因可以大大提高预测的精度和准度。据说该领域是颜宁院士的领域，随着大模型的出现走向没落。

2024-01-14 18:25:07 449

原创大模型实战营Day4 XTuner 大模型单卡低成本微调实战作业

但是有错误，到DDL了。

2024-01-14 17:33:15 470

原创大模型训练营Day3 基于 InternLM 和 LangChain 搭建你的知识库作业

基于医疗领域搭建了一个医疗问答系统。PubMed 是一个免费搜索引擎，主要提供生命科学和生物医学主题的内容。本篇记录大模型训练营第三次的作业，属实是拖延症本症患者。

2024-01-14 11:20:20 407

原创大模型实战营Day4 XTuner 大模型单卡低成本微调实战

同第三节的建立数据库中所提及到的，如果通用大模型在专用领域表现能力不强，如何改进——第三者在显存和GPU之间进行了一个整合，如果GPU满会到显存里面跑，速度会慢一些。LoRA的原理是在线性层平行增加一个两个小层的分支，因而能够减少训练的耗费。构建角色和对话模板，这项工作由Xtuner做过了，可以借此一键完成。欢迎关注无神，一起学大模型和AI方面的前沿知识！建立知识库或者微调，本节课进行的则是微调。其能支持的模型的硬件资源比较广泛。

2024-01-13 20:28:47 459

原创生物信息学之序列比对

在分析所克隆的DNA序列的一致性时；蛋白质和基因相关性分析可以通过基因比对来完成，当完成对多个物种的基因组测序后，一个重要的工作是找到特定物种内和物种之间的蛋白质或核酸在进化中的相关性。同源序列为生物进化中的核心概念：如果两个基因或者蛋白质由一个共同的祖先进化而来，那么这两个基因或蛋白质是同源的。但是，通过BLAST搜索等，DNA和蛋白质的转换是很方便的，因此二者之间可以比较方便地关联起来。1.由于DNA的遗传密码的简并性，尤其是密码子的第三个位点的变化，不会改变其所编码的氨基酸。

2024-01-13 10:18:20 1248

原创大模型训练营Day3 基于 InternLM 和 LangChain 搭建你的知识库

前者不需要算力，可以实时加入新知识，但是基座模型的上限极大程度决定其模型的上限。而后者无法实时更新，但是由于其是一个改变少数层的新的大模型，仍然具有大模型的广阔知识的优势。微调呢是冻结一定层的参数然后去训练改变其产生分类的少数几层的参数。简单总结，大模型是根据数据集训练，很难使用具有实时性的数据进行重新训练（因为训练成本需要海量资源）。而LangChain这个开源框架能够比较好地用于RAG这个方面的构建，为MIT一个创业者的发起，目前为大模型领域比较火的框架。本次的授课人是一个提示词开发项目的负责人。

2024-01-11 21:35:31 463

山东大学（威海）90分+《深度学习》课程期末考试考纲核心问题之上

测试开发行业面经(word总结版，主页可见百度测开实习岗位面经)

清华软院硕士的横向课题