- 博客(304)
- 收藏
- 关注
原创 Nano Banana Pro二次编辑的入口,谷歌竟然藏得这么深!
按照正常的逻辑,我生成了一张图,觉得需要优化,用二次编辑的方式定点修改。而不是我生成了一张图,觉得效果不好,但我需要把这张图先下载下来,再上传到Gemini,然后再二次编辑这张图后发给模型修改。具体操作方法是,用Nano生成完一张图后,把这张图下载到本地,然后再上传到Gemini,或者是上传一张需要修改的图。关键操作在于,上传后,不要写完提示词就点提交,先等一下,点击上传的图像到放大页面。所以,当我们用Nano生成一张图后,甚至都没有二次编辑的入口,只能继续发提示词,修改起来也不那么精准。
2025-12-17 16:14:57
280
原创 DeepResearch + 一键生成PPT:建议立刻将NotebookLM作为日常生产力工具
从去年的Audio Overview播客生成,到今年的Video Overviews视频生成,再到现在的Slide Deck幻灯片生成,NotebookLM正在从一个AI笔记工具逐渐演变成一站式内容创作平台。然后针对这份报告,我们可以使用右侧的Studio功能将其呈现为PPT、语音播客、视频概览、文字报告、闪卡、测练题、信息图、思维导图,呈现形式可以说是相当丰富了。播客、视频摘要、信息图、PPT等多模态的方式进行呈现,算是打通了信息搜集领域的完整链路,形成了应用闭环。
2025-12-03 18:15:55
781
原创 吴恩达团队新课上线!基于CrewAI的多智能体开发
大家都在说2025年是Agent元年,现在已经是11月中旬,纵观这一整年的Agent发展来看,确实是勃勃生机,万物竞发的感觉。GitHub上4万多颗星不说,关键是它不挑食——什么大模型都能接,既能上云也能本地跑。目前也是CrewAI的CEO,由他来讲基于CrewAI的多智能体搭建,恐怕全世界也找不出第二个更适合的人选了。最打动我的是它还有个无代码UI Studio,不想写代码的时候拖拽一下也能搭个Agent团队出来。但关于多智能体(Multi-Agent)搭建的相关课程,目前全网还没有一门系统性的课程。
2025-11-16 23:17:36
730
原创 2025年,Python包管理工具已经由pip变成了uv?
下次再安装同样的包(可能是在不同的项目里),uv直接从缓存读取,甚至不需要重新下载。而且在支持的文件系统上,uv使用写时复制(Copy-on-Write)和硬链接技术,这意味着同一个包在多个虚拟环境中共享,不会占用多倍的磁盘空间。uv使用了更高效的算法来解析依赖图,支持平台无关的解析,还能生成跨平台的锁文件。我现在的做法是:纯Python项目用uv,需要系统依赖的项目(比如 PyTorch GPU 版)还是用pip或者Conda。pip是用Python写的,uv用的是Rust。
2025-11-13 09:52:11
829
原创 Qoder CLI,也许是Claude Code在国内的最佳平替
相比于Claude Code 20刀的Pro和200刀的Max而言,Qoder 20刀的Pro和60刀的Pro+订阅费相对便宜很多了,并且目前有限期的半价活动,10刀就可以上手Qoder IDE和CLI编程套装。比如说阿里,今年以来,光在CLI AI编程赛道上,就已经有了三款公开发布的产品,分别是通义千问团队的Qwen Code、心流团队的iFlow,以及Qoder团队的Qoder CLI。实际使用下来,生成的代码确实基本可用,但在精细度和惯用写法的遵循上,还是Claude Code更胜一筹。
2025-10-27 16:07:13
1895
原创 吴恩达最新课程Agentic AI上线!
跟吴恩达老师之前的课程一样,本次Agent课程的实操部分也不会专门依赖于特定的实现框架,比如LangChain等,而是直接使用Python从零开始搭建Agent模式,可以算是实战Agent编程最好的方式了。我过去学习吴恩达老师的机器学习和深度学习课程,其中就有大量的Code from scratch的练习,非常适合初学者搞懂原理和实践中的每一步。课程,旨在教大家如何通过迭代和多步骤工作流来构建AI智能体系统,并搭建可用于生产环境的智能体,包括Agent的构建方法和部署评估。
2025-10-09 20:30:30
459
原创 推荐一款前端项目Vibe Coding必备的MCP!让AI随时能看到网页开发效果
这么说吧,有了这款MCP之后,你就再也不用去在前端页面中截图拖拽到CLI,也不用去复制粘贴控制台的报错,Chrome DevTools提供的一切信息随时作为上下文喂给大模型,相当于代替了开发者去看网页效果。但前两天我用了谷歌开发的这个MCP之后,突然觉得,之前的截图拖拽简直是反人类的设计。作为MCP服务器运行,使你的AI编程工具能够充分利用Chrome开发者工具的全部功能,实现可靠的自动化操作、深入的调试以及性能分析。所以,如果你在做前端类的Vibe Coding项目开发,我极度推荐你配置一下。
2025-09-24 22:56:36
454
原创 一键召唤AI助理!Gemini in Chrome,浏览任何网页都可随时提问
经过上述一顿操作之后,重启浏览器,如果顺利的话,你会看到浏览器顶部的Gemini图标,这时候你就可以愉快使用Gemini in Chrome功能了。然后是Chrome浏览器要求,需要将Chrome升级到最新版本,在Chrome右上角找到Chrome设置,在设置页面左侧最下方找到关于Chrome,选择升级到最新版本即可。通过将Gemini内置到Chrome中,用户可以直接在Chrome浏览器中调用Gemini,让Gemini成为上网时的AI助理。我是鲁工,八年AI算法老兵,AI全栈开发者。
2025-09-23 08:52:45
1817
原创 字节的图像生成模型Seedream-4.0,与谷歌的Nano banana的差距真的只有一周时间?
在Lovart中使用图像模型生成超详细的图文笔记,可以视为信息图的一种高端玩法,这个也是这两天除了手办之外,Nano最流行的玩法。目前Lovart上Nano banana和Seedream-4.0都可以支持,所以最强的图像生成的模型,配上最强的设计AI,碰撞出的火花也无可比拟。原以为Nano banana会在很长一段内没有竞争对手,但没想到,不到两周的时间,字节就搞出了与之匹敌的Seedream-4.0模型,全方位对标谷歌的Gemini图像模型系列和产品。这个例子,两个模型的表现都不太好。
2025-09-12 16:36:37
1104
原创 我用Google AI Studio做了个Nano banana前端应用,过程比想象中简单太多
总体来看,Build对于构建中小型前端应用可以说是超级利器了,对于复杂应用我还没试过,后续深度使用了再来反馈。但最重要的是,Google AI Studio整体是免费的,给大家Vibe Coding又带来了新的工具选项,所以非常值得深度挖掘。Build应用页面分为预览(Preview)和代码(Code),预览页面就是前述的效果应用,可以直接测试和使用,观察页面效果。我们也可以下载代码到本地,在本地打开IDE进行编辑和调试,也可以直接将应用一键部署到谷歌的Cloud Run,非常方便开发和管理。
2025-09-04 17:31:43
902
原创 最强图像模型Nano Banana的14个最流行玩法!
但是深度用过4o图像生成的朋友都应该有体会:4o生成的图像,它会改变原图,比如照片修复,它修复完后会跟原图不一样,比如长相变了,构图改了等等。在Lovart中使用Nano生成超详细的图文笔记,可以视为信息图的一种高端玩法,这个也是这两天除了手办之外,Nano最流行的玩法。这个周末在Lovart上可以免费无限使用Nano,所以最强的图像生成的模型,配上最强的设计AI,碰撞出的火花也无可比拟。你需要生成这个笔记,来解释后面的内容;这是4o的修复,乍一看,很惊艳,但仔细一对比,发现细节全都不一样,长相也变了。
2025-08-31 23:17:02
1178
原创 新手如何快速利用Claude Code开发项目并部署上线
然后是权限管理问题,用过CC的朋友的都知道,CC在任务执行过程中,遇到一些文件读写、Bash命令、数据库操作、依赖库安装等操作时,经常会停下来要求你进行人工确认,非常耽误开发进度。可以先描述一下你的开发需求,比如做一个什么的网站,有哪些功能,面向什么样的用户,希望用什么框架等等。所以先别急着跟CC聊需求,在正式开干之前,我们需要进行一些信息配置,给CC输入一些基本的上下文信息,来让CC了解我们的开发习惯和使用偏好。中间过程可以深度与CC讨论,深化相关需求,最后形成一份需求清单后,就可以直接让CC开干。
2025-08-19 20:17:07
1244
原创 我用Gemini为两岁的女儿制作了一套AI故事绘本
作为一个有女儿的爸爸,我第一时间体验了下Gemini的storybook。让我吃惊的是,就这么一个看起来不是很复杂的AI Agent产品,所使用的Agent竟然高达20个!有了初步的使用经验之后,我又加大强度,将我女儿平时的生活照转换为吉卜力风格或者Veo3视频,再用Storybook生成了一套适合我女儿这个年龄阶段的故事绘本。当夜幕降临,我下班回到家,用电脑打开Gemini Storybook,和女儿在屏幕前一起听AI创作的故事绘本,我想这就是AI发展对于普通人的意义所在吧。
2025-08-11 20:55:21
695
原创 OpenAI最新开源模型GPT-oss一手实测:小而美的推理模型
并不是说这两个模型有多强(当然也确实很强,但不是对标Claude 4.1的那种强),而是在20B和120B的这个参数规模上,做了极致的工程优化。实测下来,感觉GPT-oss这两个模型响应速度非常快,到X上一查,20B的模型可以干到每秒1200个token,120B的模型也能达到536个token。相信这也是极致的工程优化后的结果。20B和120B都能很好的实现扫雷游戏,但20B只能实现初级的9x9扫雷,120B则提供了初级(9x9)、中级(16x16)和高级(30x16)三种level的难度。
2025-08-06 17:30:54
954
原创 腾讯的混元3D AI生成,是每个人最佳的3D数字资产管理平台
Hunyuan3D-Paint则利用强大的几何和扩散先验,通过新颖的网格条件多视图生成管道和图像去光照模块,为生成或手工网格生成高分辨率、生动的纹理贴图,确保多视图生成的一致性。现在,我可以用单张3D医学影像,基于混元3D进行三维重建。但混元3D生成系列模型开源之后,在混元3D生成平台,用户仅需要提示词描述和参考图像,即可生成3D内容。在提升3D内容生成质量和效率的同时,也大幅度降低了3D内容创作的技术门槛。实验室可以看作是一个基于上述两大模型的3D应用平台,用户可以在上面完成一些有趣的3D生成创作。
2025-08-04 21:05:58
1238
原创 自从用了谷歌的NotebookLM后,我卸载了之前所有的个人笔记软件
这几年,笔记和知识库之类的应用涌现出很多,比如Notion、语雀、飞书,这些都能当个人笔记和知识库,并且这两年都不断在加深AI生态的构建。在中间的对话区,我们可以基于所有的数据材料,跟大模型进行对话,深度学习和探讨材料中的知识,并随时可以将讨论过程中的真知灼见添加到笔记区。NotebookLM还可以基于所有上传的材料,生成语音概览和视频概览,也就是AI博客,不想看文字的时候,我们可以听音频看视频。放心地使用NotebookLM的所有回答,它会为生成的内容提供明确的引用,并显示来源中的确切引文。
2025-07-31 21:05:58
876
原创 正式发布一个月后,Veo3的含金量还在上升
Veo3正式发布都一个多月了,我原以为一波热度过去,等大众习惯这种最初的惊艳感之后,关于Veo3的讨论会有所减少。针对Veo3,谷歌还公开了一个更高端的图生视频玩法,就是直接在参考图像上按顺序用文本标注视频指令,让Veo3在生成时删掉第一帧,然后按顺序执行标注的文本指令。依靠音画同步和超强的一致性效果,Veo3使得谷歌原本在AI视频生成这个相对落后的赛道里,后来居上,迅速成为第一梯队玩家。月初的时候,我曾写过一篇关于Veo3发布后,AI视频生成赛道的整体竞争格局的文章。举几个最近的流行玩法的例子。
2025-07-28 16:37:04
1070
原创 Qwen3-Coder编程实测,Qwen Code已成为Claude Code/Gemini CLI的国产平替
前有Cursor、Trae、Claude Code,后有Gemini CLI和Kimi K2,这次Qwen3-Coder又全面出击,整个赛道的竞争格局又面临变化。但整体来看,Qwen3 Coder目前的编程能力已经非常接近Claude 4 Sonnet了,甚至在部分任务上效果还要优于Claude 4。但Qwen3 Coder胜在开源,相比之下,Claude贵且易封号,使用Qwen3 Coder,每个月立省200刀,做梦都能笑醒。这时候,使用的模型就是Qwen3-Coder了。
2025-07-24 16:16:16
4352
原创 多模态RAG,图像/语音/视频也能拿来做检索增强生成
比如论文中这个图,传统的PDF文档检索,要经过OCR、布局检测、文本摘要、文档切分(chunking)等一系列处理步骤,一套操作下来,每一页需要7.22秒的时间,可以说非常耗时了。Qwen2.5-Omni是一个端到端的多模态模型,旨在感知多种模态,包括文本、图像、音频和视频,同时以流式方式生成文本和自然语音响应。RAG作为大模型实际落地使用最需要的辅助工具,依靠基础的多模态大模型的能力进步,多模态RAG一定大有可为。ColPali的文本和图像检索基础上,新增了音频和短视频数据的检索生成功能。
2025-07-21 16:39:41
756
原创 大模型从Chatbot变成Artifacts,Deep Research从文字结果到可视化报告
虽然这个问题链的话题并不是今天讨论的重点,但这种高度清晰可见的过程展示,让用户能够更加清楚的了解AI的工作过程,本身就是一种大模型可解释性的方式,也进一步增加了深度研究搜索过程和结果的可信度和可靠性。比如,在本例中,Gemini在报告的几个关键点上添加了Gemini交互按钮,我们可以点击相关按钮,更深入的理解报告内容。整体来看,Gemini Deep Research应该目前功能最为齐全的深度搜索产品了,底层依靠强大的Gemini 2.5 Pro基座模型,前端应用功能又齐全多样,玩技术生态,还得是谷歌。
2025-07-17 09:26:30
1036
原创 逆势而上的月之暗面:Kimi K2编程实测
该卡片应通过不同的动画效果直观展示以下天气状况:风:(例如移动的云朵、摇曳的树木或风线)雨:(例如落下的雨滴、积水形成)太阳:(例如照射的光线、明亮的背景)雪:(例如落下的雪花、积雪)将所有天气卡片并排显示。但K2的论文还未发布,这1T参数量的模型具体咋训练的,只能等后续论文发布了再看。特别是在年后DeepSeek崛起,六小龙模式岌岌可危的环境下,Kimi能逆势而上,仍然在基座模型上持续发力,颇有一种强势回归的即视感。巧合的是,K2发布后,OpenAI原定于这周要发布一款新的开源模型也被延迟发布了。
2025-07-14 16:36:21
1124
原创 自从有了Deep Research,我成了文献综述/技术调研爱好者
过去,我经常跟我的组员、跟机器学习交流群里的群友说,想要快速切入到一个不太熟悉的学术方向和技术领域时,最好的方法是找一篇该领域最新的综述来精读。我数了一下今年2月份以来,我在各个平台使用Deep Research生成的报告数,足足有113篇,除了周末,基本上每天都在用AI做深度研究和调研,是名副其实的文献综述和技术调研爱好者。有时候想想,现在的学生真幸福,赶上了AI爆发的好时代,各种信息、AI工具随手就能获得,我读研的时候要是有Deep Research这种科研大杀器,高低也能多出两篇学术成果。
2025-07-10 08:48:37
630
原创 Veo3视频生成,后来居上
" 在一段摇晃的手机自拍画面中,雨水打在镜头上,秦王李世民的黑甲军队与太子红卫队在泥泞的混乱中交锋:战马践踏着倒下的旗帜,破碎的剑刃嵌入雨淋的鹅卵石中。在下方的提示词输入框内输入生成提示词,框内右上角选择生成的视频个数(1~4个)和所用的生成模型(Veo2或者Veo3),即可进行视频生成。更重要的是,Veo3的爆火,给第一梯队的选手们带来了压力:这边可灵紧急上线音画同步生成功能,那边海螺发布新模型hailuo-02,顺带还发布了全球首个AI视频生成Agent。谷歌在这条赛道里面,其实是有些落后的。
2025-07-07 08:41:16
1296
原创 Gemini CLI,命令行效率神器!也是目前唯一能白嫖Gemini 2.5 Pro的方式了
作为命令行工具,Gemini本身也是作为一个npm包(可以理解为Node.js的应用商店和命令行工具)发布的,所以安装Gemini前需要安装Node.js软件,直接到Node.js官网下载安装,安装过程中记得勾选将Node.js加入环境变量。但我想说的是,对于像Gemini CLI这样的新型生产力工具,一定要第一时间研究尝试,看看怎么跟自己当下的工作场景和工作流结合,来最大化自己的工作效率。所以,MCP本质上是一种大模型接口,通过这个接口与各种各样的功能进行链接,让大模型如虎添翼。
2025-07-03 08:56:11
3067
原创 达摩院的胃癌早筛影像AI,再次印证了:医疗AI,最重要的不是模型和算法
然后的GRAPE的评估阶段,该阶段要跟放射科医生阅片做对比,测试GRAPE在辅助诊断方面的潜力。第二阶段,以前一阶段的ROI作为输入,基于3D卷积搭建多任务的分割和分类网络,分割网络同时分割出胃部和胃癌,分类网络在分割网络主干基础上用全局池化(GP)和全连接(FC)层拉的一个分支,是个典型的深监督结构,用于胃癌/非胃癌的二分类。早在两年前,达摩院就发布了基于胰腺癌早期筛查模型PANDA,同样是平扫CT,熟悉的Nature Medicine,在常见癌症的影像学大规模筛查上,达摩院似乎找准了AI医疗的落地点。
2025-06-30 08:56:10
1072
原创 《深度学习图像分割》第5章:基于多尺度结构的分割网络
ParseNet通过全局平均池化的方法在FCN基础上直接获取上下文信息,图5-3为ParseNet的上下文提取模块,具体地,使用全局平均池化对上下文特征图进行池化后得到全局特征,然后对全局特征进行L2规范化处理,再对规范化后的特征图反池化后与局部特征图进行融合,融合得到的特征图最终能够显著提升语义分割效果。多尺度结构的设计理念在于通过增强模型对不同尺度上下文的感知能力,提升语义分割的精细度和全局一致性,其主要目标是解决上下文信息捕捉不足和多尺度特征融合问题。上下文的概念与自然语言处理中的句子语境分析类似。
2025-06-24 22:49:37
905
原创 DeepSeek-R1-7b全量微调(SFT)技术教程
一个7b的模型,采用LoRA训练通常只需要两张24G的3090或4090显卡即可,并且对数据量要求不高,几百条数据即可开训,半小时内即可训练完成,非常高效。并且LoRA是一种可插拔式的适配器模型,当我们想要实现不同的模型风格效果时,在基础模型不变的情况下,可以训练多个LoRA与基础模型切换和适配,非常灵活。SFT一般需要较多的高质量微调数据,对算力要求也非常高,一个7b的模型,全量微调通常需要参数量16~20倍的GPU显存,也就是说至少需要两张80G的A100显卡才能训的动。为了方便读者上手,笔者通过。
2025-03-16 19:37:01
3371
原创 使用ChatGPT Deep research做技术调研,10分钟出一篇论文综述!
这两天OpenAI下调了Deep research功能的使用门槛,原先200美刀一个月的Pro用户才能用的,现在20刀的Plus用户也能用了。因为我日常经常要针对特定研究方向做文献调研,经常要花1-2周时间精泛文献,是一个非常耗时耗力的活。所以Deep research我第一时间尝了个鲜,简单和大家聊一下这个东西。选择o1模型,然后在输入框下面把Deep research勾选上,就可以体验深度研究...
2025-02-28 16:59:06
1859
原创 我用DeepSeek将《桃花源记》拍成了微电影!
不好意思,有点标题党了,大家都知道DeepSeek是个纯LLM,没有多模态的功能,没法生成视频,出图的功能都没有。完整的技术方案应该是DeepSeek+Midjourney+即梦+剪映。其中DeepSeek用于生成分镜脚本和提示词,Midjourney用于生成分镜首图,即梦用来直接生成分镜视频,而剪映用于最终的剪辑和成片。本文主要展示如何组合使用上述工具,将陶渊明的《桃花源记》生成为1-2分钟的微...
2025-02-24 15:26:28
1362
原创 DeepSeek接入本地知识库!
无论大模型能力有多强,在回答人类提问时或多或少都会存在胡说八道的情况,也就是我们所说的幻觉(Hallucination)。这段时间爆火的DeepSeek当然也会存在这类问题。特别是垂直领域的大模型应用,对于模型回答的准确率要求非常高,因为存在幻觉问题,单纯依靠大模型难以满足使用需求,所以我们一般会通过检索增强生成(Retrieval-Augmented Generation, RAG)技术来缓解大...
2025-02-19 10:02:54
833
原创 DeepSeek-R1本地化部署的两种方案!
DeepSeek爆火之后,短时间官网和app都涌入大量用户,再加上对面美帝不讲武德搞攻击,导致官网和api调用非常不稳定,极度影响用户体验:综合这几天来看,要想继续无痛使用DeepSeek,有如下几种方案:继续使用官网,等DeepSeek官方修复和提升用户体验使用第三方平台上的DeepSeek,比如硅基流动、秘塔、纳米搜索等本地化部署这篇文章主要介绍两种本地化部署方案。需要提前说明的是,本地化部署...
2025-02-08 13:58:54
1436
原创 制作个人的第一个RAG demo!
检索增强生成(Retrieval-Augmented Generation, RAG) 是一种结合了信息检索和大模型(LLM)的技术,用于构建更强大和准确的问答或生成系统。RAG通过将大模型与外部知识库相结合,可以动态检索相关信息并利用生成模型对查询进行更准确的回答。RAG在对抗大模型幻觉、高效管理用户本地文件以及数据安全保护等方面具有独到的优势,因而目前基于大模型应用专门做RAG赛道的企业不在少...
2024-12-18 16:55:30
1231
原创 《深度学习图像分割》第4章:基于编解码结构的分割网络
《深度学习图像分割》这本书写写停停,历经三年多,目前在二稿修订中。正式出版之前,计划先在GitHub做逐步的内容和代码开源。以下为本书第4章节选内容:编解码网络结构是深度学习图像分割中的经典设计和主流架构,广泛应用于各类场景的分割任务中。本章将以全卷积网络和U-Net结构为基础,深入剖析各种编解码网络结构的变体,包括SegNet、RefineNet、Attention U-Net、Residual...
2024-11-27 17:11:51
814
原创 《深度学习图像分割》第3章:图像分割关键技术组件
《深度学习图像分割》这本书写写停停,历经三年多,目前在二稿修订中。正式出版之前,计划先在GitHub做逐步的内容和代码开源。以下为本书第3章节选内容:近年来,基于深度学习的图像分割技术发展迅猛,涌现出大量创新的模型和算法。然而,构成这些方法的核心技术组件并未发生根本性变化。为了能够系统性的理解深度学习图像分割模型的设计,本章将首先回顾图像分割中的关键技术组件,为后续章节中深度学习分割网络的具体介绍...
2024-11-11 16:28:20
685
1
原创 《深度学习图像分割》第2章:传统图像分割算法
《深度学习图像分割》这本书写写停停,历经三年多,目前在二稿修订中。正式出版之前,计划先在GitHub做逐步的内容和代码开源。以下为本书第2章节选内容:图像分割是数字图像处理和计算机视觉领域中的一个经典问题,旨在将图像划分为若干具有特定意义的子区域或目标对象。图像分割是一种典型的图像处理方法,其输入和输出都是图像。传统的图像分割方法通常基于图像的两个基本属性:灰度值的不连续性和灰度值的相似性,并围绕...
2024-11-05 16:16:46
1482
原创 预告 | 《深度学习图像分割》将在GitHub逐步内容开源!
《深度学习图像分割》这本书写写停停,历经三年多,目前在二稿修订中。正式出版之前,计划先在GitHub做逐步的内容和代码开源。以下为本书第1章节选内容:相较于目标检测只关注图像中的局部区域,基于深度学习的图像分割则更为精细,它将每一个像素点作为研究对象,并对每个像素赋予一个语义标签。因此,图像分割的一个基本类型称为语义分割(semantic segmentation)。除了语义分割,实例分割(ins...
2024-10-15 21:58:33
871
原创 浅谈医工交叉方向SCI写作
笔者因为工作性质原因,这几年写了不少医学人工智能方向的SCI论文,顺带每年相关的论文的阅读量也有小几百篇,特别是在医学影像AI方向,也算是小有心得,今天就简单聊一下医工交叉(影像AI)方向的SCI论文写作与投稿问题。首先声明一点,医工方向非常吃人脉和数据资源,如果没有医院数据和标注资源的话,想发高分期刊非常难。不是说不可能,也有天赋型选手单靠几个常用的公开数据集设计出新的网络结构发到MIA和TMI...
2024-06-20 15:43:36
1564
原创 用天工AI搜索起底《庆余年2》,终于搞清楚了范闲有几个爹!
前两天庆余年剧组官方宣布了《庆余年2》定档5月16日,不少粉丝早已按耐不住自己期待的心情,包括笔者自己。虽然但是,笔者好像已经忘了第一部里面都讲了哪些内容了?不知道有没有跟笔者一样的朋友。毕竟,距离第一部开播,已经都快五年了。刚好最近AI搜索很火,笔者就用了国内第一款AI搜索——天工AI搜索来帮助温习了下庆余年的内容。其实AI搜索这个东西,它也不是最近才火的,早在ChatGPT刚问世不久,业界就有...
2024-05-12 11:00:45
1458
1
原创 扩散模型:DDPM的两种数学推导
在上一篇文章最后结尾时,笔者提到扩散模型(Diffusion Models)实际上就是一种在限定条件下的马尔可夫层次变分自编码器(Markovian Hierarchical Variational Autoencoder, MHVAE),是融入了马尔可夫过程的VAE模型。其本质上和VAE的流程有相似之处,都是经过原始图像->高斯噪声图->生成图像的三个步骤。本文将接续上一篇关于ELB...
2024-04-14 10:58:29
2482
原创 概率的艺术:变分下界(ELBO)与VAE
按照年初的规划,LLM和AIGC是笔者今年重点学习的两大方向,目前已经分两条线在逐步展开中。笔者最近对Stable Diffusion在本地进行了部署,深度尝试使用了三周时间,对SD常规用法、LoRA、Textual Inversion、Dreambooth和ControlNet均小有尝试,以下均为笔者使用SD绘制的效果图片(相关模型均来自Civitai)。SD等绘图工作背后的核心技术就是目前非常...
2024-04-08 16:17:03
6238
1
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人
RSS订阅