- 博客(177)
- 收藏
- 关注
原创 AI教我做事之AIAgent开发-3 实施人工智能战略的步骤
人工智能就像拥有一个超级聪明的助手,它可以学习、适应并不知疲倦地工作以理解您的数据并帮助您做出更好的决策。从定义明确的目标到选择合适的工具并有效扩展,每个步骤都至关重要,以确保您的 AI 计划取得可衡量的成果。而是要以符合您的业务目标、增强您的流程和增强您的团队能力的方式嵌入 AI。在这篇博客中,我们将讨论人工智能对您的业务的真正意义、它如何为您创造奇迹以及将其付诸实践的步骤。没有废话,只有您需要了解的内容。明确的人工智能实施策略可确保您不仅顺应趋势,而且做出能够为您的业务增加真正价值的深思熟虑的选择。
2025-03-20 10:43:11
726
原创 AI教我做事之AIAgent开发-1 AI Agent是什么?
AIAgent 的定义AI Agent 是一种软件程序,可以感知环境、做出决策并采取行动,以实现预定的目标。研究表明,它通常基于人工智能技术,特别是大型语言模型(LLM),能够自主完成任务,如自动化客户服务或数据分析。开发AIAgent 的步骤定义问题:明确 AI Agent 需要解决的任务或目标,例如回答客户查询或自动化调度。选择技术:选择适合的 AI 框架和编程语言,如 Python,并使用如 TensorFlow 或 PyTorch 的工具。数据收集和准备。
2025-03-20 10:34:07
1236
原创 4.1-2 做漫画的神器MangaMaker
MangaMaker这个插件真的让人惊讶,还记得小时候我们经常看的日本漫画风格吗?现在你自己也可以做了。提供多种漫画风格布局的页面,每个单独提供异步的AIGC能力配置,在RA/SD中你可以有趣的摆完这个插件的能力。唯一要注意的是,自动化的一些内容前提需要配置正确。请仔细阅读相关配置内容。
2025-03-19 15:30:11
288
原创 4.1-4 SadTalker数字人 语音和嘴唇对应的方案
SadTalker是一个强大的数字人相关的RA/SD插件。它本身是一个非常独立的产品。你只需要提供一段视频,一段文字,简单的配置,在RA/SD中简单的生成即可。视频中人物的嘴唇很好的应对了你要发声的文字内容。效果很赞。仔细学习后体验下吧。
2025-03-19 15:29:33
513
原创 4.1-1 IS-NET-Pro视频转图片的插件
IS-NET-Pro这个插件真的让人惊讶,可以视频转帧图片,也可以将帧图片序列转换成视频。同时还有抠图等功能。当然你需要了解一些视频和图片关系的基本概念,比如一帧视频对应了多少个图片是由FPS决定的。这个插件在启动的时候,会下载一个模型。RA中已经默认帮你下载好。我们将准备好的目录给出,设定输出视频的FPS。我们主要介绍视频转序列帧。
2025-03-19 15:28:24
348
原创 4.1-3 制作光影幻术
本文不是介绍一个单一的插件,而是一个组合使用。涵盖了Segmention插件和GroundingDINO的使用,ControlNet的使用和QRPattern模型的使用.需要勾选GroundingDINO,然后在output中生成的3张结果mask图中选择一张。首先使用Segment Anything插件,将一个图片中人物的造型,弄出一个蒙版来。看的出来,是不是若影若仙风景中有个女子的轮廓?最大1,值越大,最终效果约明显。是不是这么美丽的一副风景画,中间是一个刚才我们设定的美女轮廓?这样的话,感觉也可以。
2025-03-19 15:27:24
325
原创 大语言模型的压缩技术
尽管人们对越来越大的语言模型一直很感兴趣,但,而对边缘计算日益增长的兴趣促使我们使用小型语言获得不错的结果。压缩技术提供了一种替代方法。在本文中,我将解释这些技术,并提供一些简单的代码片段作为示例。模型压缩是在不影响机器学习模型有效性的情况下最小化其大小的行为。由于大型神经网络经常因过度参数化而包含冗余计算单元,因此这种方法对它们非常有效。压缩意味着减少参数数量或整体内存占用,从而减小模型大小(例如从 10 GB 到 9 GB)。
2025-03-19 00:00:00
724
原创 AI教我做事之RAG开发-21 RAGFlow深度研究
RAGFlow 是一个开源的检索增强生成(Retrieval-Augmented Generation, RAG)引擎,基于深度文档理解,结合大型语言模型(LLM)提供准确的问答能力,并支持复杂格式数据的引用。它的设计目标是为各种规模的企业提供流线型的 RAG 工作流,增强 AI 驱动的交互。通过研究RAGFlow 官方文档和GitHub 仓库,可以发现 RAGFlow 提供了 HTTP API 和 Python SDK,方便开发者集成到应用中。
2025-03-18 10:07:05
797
原创 AI教我做事之RAG开发-22 RAG平台框架研究和对比
概述:RAGFlow 是一个开源 RAG 引擎,专注于深度文档理解和简化的工作流程设计,适合企业快速构建基于检索增强生成的问答系统。功能和特性支持文档检索、问答和知识图谱提取。提供用户友好的图形界面。支持复杂格式数据的处理和与 LLM 的集成。架构:基于 Python,采用模块化设计。易用性:界面直观,配置简单,适合初学者和快速部署。性能:在中等规模数据上表现良好,但处理超大规模数据时可能需要优化。可扩展性:支持一定程度的定制,但扩展性相对有限。社区支持。
2025-03-18 10:04:54
1119
原创 AI教我做事之RAG开发-23 RAG框架之Pathway平台框架研究
Pathway 是一个高性能、低延迟的 Python ETL(Extract, Transform, Load)框架,专为流处理、实时分析、大型语言模型(LLM)管道以及检索增强生成(RAG)设计。它提供了一个简单易用的 Python API,开发者可以无缝集成常用的 Python 机器学习库,例如 LangChain 或其他嵌入模型。Pathway 的代码设计兼顾开发和生产环境,能够高效处理批处理和流式数据。官网地址:https://pathway.com/
2025-03-18 10:02:34
729
原创 人类和AI的能力评测和详细对比
BEARCUBS的基准测试,旨在评估具备计算机使用能力的网络代理在实时网络环境中的信息搜索和多模态交互能力。文档详细阐述了BEARCUBS的设计理念、构建过程、实验结果及当前代理的局限性,强调其通过实时性和多模态性区别于现有基准的创新性。通过人类与代理的性能对比,文档指出现有代理在可靠来源选择和多模态能力上的不足,并提出了改进建议。BEARCUBS通过定期更新保持挑战性,为未来网络代理研究提供了重要参考。
2025-03-17 10:51:26
1361
原创 2Img.ai的AIGC课程-5-27 临摹大师-IP-Adapter
名称中的 IP 指的是 Image Prompt 图像提示,它和 T2I-Adapter 一样是一款小型模型,但是主要用来提升文生图模型的图像提示能力。IP-Adapter 自 9 月 8 日发布后收到广泛好评,因为它在使用图生图作为参考时,对画面内容的还原十分惊艳,效果类似 Midjourney 的 V 按钮。IP Adapter比reference的效果要好,而且会快很多,适配于各种stable diffusion模型,还能和controlnet一起用。叠加之后, 这个人脸的角度也相似了吧。
2025-03-17 09:50:16
282
原创 2Img.ai的AIGC课程-5-26 黑白照片上色-Recolor
当然带来的效果质量,只能说中等。当然配上强化要求的关键字,可以针对不同的图片和区域,强化某些部位的颜色展示。就需要你的才华的发挥了。实际上我们针对颜色的处理可以使用语义分割,或者边缘检测后单独处理,reColor相对方便的内置算法,帮我们自动的一体化处理。ControlNet中的 Tile/Blur 中有个上色的与预处理器。重要心得, 模型的不同对于色系影响不是非常大。这里我给的是一张老建筑的照片。你可以给一张黑白色的人物照片,可能效果更明显。比如下图,我用几个高质量的。需要注意,此时的模型要选择。
2025-03-17 09:49:30
640
原创 2Img.ai的AIGC课程-5-25 艺术二维码制作
之前我们其实也有一节艺术二维码的制作课程。本节和它的区别在于,我们不适用额外的独立模型,而是使用一个ControlNet中的预处理器和控制算法参数的调节,实现同样的效果。总体来看用独立模型能力的方式生成的二维码更好看些,控制力更强,效果更好。但本节仅使用ControlNet也能达到类似的效果也不失为一种额外的方法。本节主要介绍ControlNet中的艺术二维码制作。第二个这样配置 , 2个配置面板参考图都要用最原始的QRCode。上一节我们介绍了ControlNet中的T2IA自适应。
2025-03-17 09:48:50
483
原创 5-24 色彩与风格——T2IA自适应
T2I-Adapter 的特点是体积小,参数级只有 77M,但对图像的控制效果已经很好,且就在 9 月 8 日,它们针对 SDXL 训练的控图模型刚刚发布,是目前最推荐用于 SDXL 的 ControlNet 模型,但需要注意的是 SDXL 类模型对硬件要求较高,官方建议至少需要 15GB 的显卡内存,想体验的小伙伴可在下面地址中自行下载安装到本地。名称中 T2I 指的是的 text-to-image,即我们常说的文生图,而 Adapter 是适配器的意思。RA/SD 衍生者AI训练营。
2025-03-14 00:00:00
319
原创 5-27 临摹大师-IP-Adapter
名称中的 IP 指的是 Image Prompt 图像提示,它和 T2I-Adapter 一样是一款小型模型,但是主要用来提升文生图模型的图像提示能力。IP-Adapter 自 9 月 8 日发布后收到广泛好评,因为它在使用图生图作为参考时,对画面内容的还原十分惊艳,效果类似 Midjourney 的 V 按钮。IP Adapter比reference的效果要好,而且会快很多,适配于各种stable diffusion模型,还能和controlnet一起用。叠加之后, 这个人脸的角度也相似了吧。
2025-03-14 00:00:00
457
原创 5-10 借用ControlNet模型制作艺术二维码
上一节中我们介绍了ControlNet中使用OpenPose插件的能力本节我们介绍如何用ControlNet来制作艺术性的二维码。大家学习过我们的初级课程的化,应该还记得有标准二维码制作的课程。具体见:4-23 QRTookit 二维码生成。本文在这个基础之上使用一些不同的方式,比如LoRA模型的套用,卡通大模型的混合等实现更加艺术呈现的艺术二维码。把传统古板的不那么好看的传统二维码,变成有各种色彩和有趣画面的艺术二维码总是一种更有趣,更好的选择。
2025-03-14 00:00:00
413
原创 主流向量数据库对比
开源状态:是否为开源,影响灵活性和社区贡献。成本:是否涉及使用费用,特别关注云服务的定价模型。扩展性:数据库处理向量数量的能力,分为高(数十亿向量)和非常高(数十亿以上)。性能:包括查询时间和索引时间,基于行业基准测试如 ANN Benchmarks 和 VectorDBBench。支持数据类型:除了向量和元数据,是否支持其他类型如 JSON、数组等。ML 集成:是否支持与机器学习框架(如 PyTorch、TensorFlow)和嵌入模型(如 Hugging Face、OpenAI)的集成。易用性。
2025-03-14 00:00:00
1141
原创 5-26 黑白照片上色-Recolor
当然带来的效果质量,只能说中等。当然配上强化要求的关键字,可以针对不同的图片和区域,强化某些部位的颜色展示。就需要你的才华的发挥了。实际上我们针对颜色的处理可以使用语义分割,或者边缘检测后单独处理,reColor相对方便的内置算法,帮我们自动的一体化处理。ControlNet中的 Tile/Blur 中有个上色的与预处理器。重要心得, 模型的不同对于色系影响不是非常大。这里我给的是一张老建筑的照片。你可以给一张黑白色的人物照片,可能效果更明显。比如下图,我用几个高质量的。需要注意,此时的模型要选择。
2025-03-13 17:18:16
286
原创 5-21 绘图与造字
所谓绘图和造字,核心原理也是将文字或者绘图以一个参照图的形式,中间使用ControlNet对应的分割,影响逻辑,和对应的算法。影响到最终生成的图的目的。ControlNet中打开Canny边缘检测,选择我们手写的那张图作为边缘检测的参考。这种特殊的使用,实际上针对实际的业务需求有更明确的效力。上一节我们介绍了如何在ControlNet下制作三维重建。这一节我们主要介绍ControlNet中的绘图与造字。RA/SD 衍生者AI训练营。我们手写一个字,像这样。
2025-03-13 17:17:01
241
原创 5-20 多重控制 – 三维重建
最常用的需求就是我们通过某些设备将某些古建筑扫描成点云数据,或者我们去登月后获得的数据都是2D平台的。此时我们需要通过三维重建的方式,以一种3D的方式呈现这些内容的能力。提供了一张风景图,然后选择对应的大模型后,用图生图,通过2个ControlNet 单元控制,实现开通三维重建。而RA/SD以其强大的图片处理能力,也能将2D平面的图形,做初类似2.5D的类三维视角的图片。就是将2D的内容,或者3D的场景但是2D数据的内容,还原到3D的需求。2个Unit的控制,一个用深度图,一个用法线图。
2025-03-13 17:16:07
180
原创 5-19 图片光源控制
通常我们可以比较粗鲁的在关键词中,输入Unreal Engine等著名三维引擎的名字,让RA/SD生成更加自动添加光线的内容。如果想对生成的图片进行打光,可以在 img2img 模式下,把光源图片上传到图生图区域,ControlNet 中放置需要打光的原图,ControlNet 模型选择 Depth。但是在AIGC图片的生成环节相对控制较少,但是为了要生成品质好的作品,光源的控制,光线的控制和处理,始终是一个重要的内容点。光源的控制,我们以前在三维场景的设计或者三维引擎的使用中,会经常使用。
2025-03-13 17:14:57
297
原创 2Img.ai的SD课程-5-18 用ControlNet替换背景
在 img2img 图生图模式中,通过 ControlNet 的 Depth_leres 模型中的 remove background 功能移除背景,再通过提示词更换想要的背景。要点:如果想要比较完美的替换背景,可以在图生图的 Inpaint 模式中,对需要保留的图片内容添加蒙版,remove background 值可以设置在 70-80%。如果说其余的方式目的就是让你单独的生成一张背景剔除的图片作为结果,那么ControlNet的这个功能可以结合其余的流程和能力一起使用。RA/SD 衍生者AI训练营。
2025-03-13 17:12:36
177
原创 5-17 reference参考图
Reference参考图的方式,真的就是像名字说的一样。比如参考人物的姿势形态,这个就非常有用。毕竟OpenPose控制的太细节了,如果有现成的图,可以直接参考使用。结果用ControlNet 设置的reference预处理器模式,同时给的参考图是一个这么严肃的人垂直走路的样子, 哈哈。所以最终出来的小狗,在草地上这种样子的行走。可以理解为垫图,AI 会根据上传的图片进行物体和风格的参考进行重新绘制,也可以通过关键词描述改变物体动作或形态。本节 主要介绍ControlNet中的reference参考图。
2025-03-13 17:11:27
284
原创 5-15 春夏秋冬字体设计
反面关键词:lowres, bad anatomy, bad hands, text, error, missing fingers, extra digit, fewer digits, cropped, worst quality, low quality, normal quality, jpeg artifacts, signature, watermark, username, blurry。主要的设计思路和方式是通过另外一个图片的影响,使用某种算法参与混合的效果,最终生成我们要的复杂需求图片。
2025-03-13 17:10:57
709
原创 5-22 inpaint局部重绘
和没有使用 ControlNet控制的直接重绘对比下图。尤其我们使用Depth深度图,感觉立体效果和融合效果,差很多。我们之前的基础课程中,也有用图生图的能力,见该课程 3-5 局部重绘操作实现人物换脸。设置2道ControlNet控制, Unit0 控制 重绘, Unit1 ,控制使用深度。总体来看,通过使用ControlNet多Unit的控制,使得重绘的效果更好了些。模型文件:control_v11p_sd15_inpaint.pth。使用 Inpaint 控制稳定的扩散。具体的大家自行判断吧。
2025-03-13 17:09:55
411
原创 5-29 有趣的指令Pix2Pix(P2P)
与官方的 Instruct Pix2Pix 不同,该模型是用 50% 指令提示和 50% 描述提示进行训练的。例如,“一个可爱的男孩”是描述提示,而“让男孩可爱”是指令提示。有点和Reference类似,不同的是一个通过图片,一个是通过文字,或者说指令。但最终形成的都是RA/SD处理过程中参考对象的内容或者数据。实际上通俗的理解,我们可以认为,编写一个指令,去影响这个最终图片。可以看到,大火的结构样子还是和这个建筑物有点关系的。另外,“将其变成 X”之类的指令似乎比“将 Y 变成 X”效果更好。
2025-03-13 17:08:34
547
原创 使用 FTI 架构正确构建 ML 系统
特征/训练/推理 (FTI) 管道架构本文介绍了特征/训练/推理 (FTI) 架构,以使用 MLOps 最佳实践构建可扩展且模块化的 ML 系统。Hopsworks 首席执行官 Jim Dowling 提出了该设计 [1]。我们将首先讨论构建机器学习系统时遇到的问题。然后,我们将研究其他潜在的解决方案及其问题。最后,我们将介绍特征/训练/推理 (FTI) 设计模式及其优势。我们还将了解在构建 ML 系统时使用特征存储和模型注册表的优势。
2024-09-02 15:54:34
1377
原创 超越微调模型
计算机视觉和自然语言处理领域正在迅速发展,对针对特定下游任务进行微调的专用模型的需求日益增长。然而,拥有不同的微调模型有多个缺点:1. 对于每个任务,必须存储和部署单独的模型(可以通过应用 LoRA 等方法进行微调来解决此问题)。2. 独立微调的模型无法从相关任务的信息中获益,这限制了它们在域内和域外任务中的泛化。然而,多任务学习需要访问每个特定任务的数据集,而整合这些数据集可能很复杂。如果我们无法访问所有下游任务的数据集,但可以使用微调模型,该怎么办?
2024-09-01 15:47:51
1119
原创 金融科技初创企业建设指南
您是否提供了更加用户友好的界面?您能以较低的成本提供这项服务吗?您是否瞄准了尚未得到充分服务的细分市场?您的解决方案是否以创新的方式利用新技术?您的独特价值主张应该清楚地阐明为什么客户会选择您的服务而不是现有服务。
2024-09-01 15:45:47
1658
原创 5 本顶级LMM和AIGC书籍
本文回顾了五本探讨大型语言模型 (LLM) 和生成式人工智能等快速发展领域的关键书籍,为这些变革性技术提供了重要见解。向读者介绍了用于自然语言处理的 Transformer 架构,并提供了使用 Hugging Face 进行文本分类等任务的实用指导。Sebastian Raschka 的提供了构建 LLM 的全面指南,从数据准备到微调。Jay Alammar 和 Maarten Grootendorst 撰写的《揭开了生成式 AI 与业务集成的神秘面纱,强调了在 AWS 上进行模型选择和部署。
2024-08-31 15:33:35
1402
原创 Transformer 与传统模型Informer
Transformer 与传统模型:Informer 如何改变时间序列预测的规则Transformers 是那些聪明的注意力构建者,它们在机器学习的各个领域掀起了波澜。但在时间序列预测领域,它们才真正大显身手。你可能会问,为什么?想象一下,有一个水晶球,它不仅能看到未来,还能理解导致未来的复杂过去事件网络。这就是 Transformers 带来的好处。
2024-08-31 15:32:13
1474
原创 对新创业公司始终有效的客户获取策略
显然,不同类型的市场和产品会有不同的指标,需要不同的策略。但我每周去杂货店已经 20 多年了,这已经根深蒂固地融入了我的日常生活,以至于改变习惯的精神能量感觉比去商店的时间成本更昂贵(尽管事实显然并非如此)。无论你推出的是 CRM、健康应用、电子商务平台还是任何其他类型的企业,克服消费者惰性的关键在于瞄准那些已经处于相关变化中的人们。让人们在已经习惯现有产品的情况下转换新产品需要改变人们的行为,而行为是极难改变的。“我不明白为什么我们的策略没有起到更好的效果,”会议开始时,这位创始人抱怨道。
2024-08-30 15:48:48
1354
原创 增强检索增强生成模型的可靠性和可追溯性
事实上,上下文幻觉仍然会出现,有时找不到正确的上下文。为了解决这些限制,我们提出了一种新颖的 SELFREASONING 框架,通过使用 LLM 自身生成的推理轨迹来提高 RALM 的性能。所提出的方法很有趣,因为它既提高了系统响应的能力,又提高了对 LLM 响应方式的追踪能力。虽然我们在使用 RAG 时没有对其进行推理训练,但我们感兴趣的是它解释上下文并使用此信息进行响应的能力(因此我们对预训练期间获得的知识不太感兴趣)。然后,我们可以思考如何调整模型的能力,对发现的上下文进行推理,并学习如何提取信息。
2024-08-30 15:47:39
1547
原创 微软的OmniParser简介
AI 代理可以通过一系列思维过程分解高度模糊的问题,类似于人类的推理,从而处理这些问题。这些代理可以使用各种工具(包括程序、API、网络搜索等)来执行任务并寻找解决方案。该图说明了组成 AI Agent 的各种组件,包括其网页浏览功能以及导出手机屏幕、桌面视图和网页浏览器的功能。通过提供详细的上下文信息和对用户界面内各个元素的精确理解,细粒度的局部语义使模型能够做出更明智的决策。标签准确度的提高不仅可以确保识别正确的图标并与其预期功能相关联,而且还有助于在应用程序内实现更有效、更可靠的交互。
2024-08-29 13:00:00
2070
原创 科技员工生产力为何大幅下降
如果你向任何科技行业的员工询问他们目前的想法,很有可能他们会茫然地盯着你 15 到 30 秒,试图弄清楚你站在哪一边。我知道,因为我问过,并且我得到了很多这样的反应。最近,我与许多科技行业的高层领导进行了多次坦诚的讨论,这令人惊讶。我将站在 (高于) 平均水平的科技员工的角度,帮助我们所有人找到答案。类似于治疗,但没有愚蠢的应用程序或蜡烛。
2024-08-29 12:00:00
426
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人