
深度学习
javastart
专注于大数据 AI
展开
-
强化学习开源框架整理
本篇主要是介绍了不同的 RL 开源工作,包括环境开源工作和算法开源工作,同时关注这些开源工作对于多机多卡并行分布式训练的支持。转载 2023-05-06 16:56:20 · 45 阅读 · 0 评论 -
2023 Ai绘画 stable diffusion 笔记本配置硬件要求
所以核显机型就不要考虑了,另外Ai绘画运行中相当于之前的挖矿,GPU会100%运行,对于笔记本来说散热规模有限,不建议长时间跑图。推荐考虑GN7,显卡性能相当于RTX3060~RTX3060Ti ,16G显存,出图效率还行,很适合一天24小时跑图使用。新用户比较优惠,12月份我用的时候120/月,一天相当于4元,实际上在自己电脑上跑12小时,电费都不止4元了。编辑于 2023-04-21 09:59・IP 属地广东。选择 windows操作系统 2019。显存:越大,所设置图片的分辨率越高。转载 2023-05-01 21:43:32 · 1913 阅读 · 0 评论 -
Stable Diffusion团队放大招!新绘画模型Deep Floyd直出AI海报,像素级生成
参考链接:[1]https://deepfloyd.ai/deepfloyd-if[2]https://stability.ai/blog/deepfloyd-if-text-to-image-model[3]https://stability.ai/blog/stablevicuna-open-source-rlhf-chatbot[4]https://stable-diffusion-art.com/how-stable-diffusion-work/转载 2023-04-30 22:00:42 · 236 阅读 · 0 评论 -
Segment-and-Track Anything!视频版SAM来了,分割/跟踪/编辑一切,现已开源!
项目成员包括:徐源佑(在读博士),程阳铭(在读硕士),李刘磊(科研助理), 杨宗鑫 (博士后), 王文冠 (百人计划研究员), 杨易 (教授)。SAM-Track在单卡上即可支持各种时空场景中的目标分割和跟踪,包括街景、AR、细胞、动画、航拍等,可同时追踪超过200个物体,为用户提供了强大的视频编辑能力。SAM-Track在单卡上即可支持各种时空场景中的目标分割和跟踪,包括街景、AR、细胞、动画、航拍等,可同时追踪超过200个物体,为用户提供了强大的视频编辑能力。2. 通过点击添加多个物体进行分割/跟踪。转载 2023-04-27 22:17:42 · 92 阅读 · 0 评论 -
Studio D-id 视频生成工具
Studio D-id_映技派,专注新媒体运营!原创 2023-04-09 21:40:35 · 40 阅读 · 0 评论 -
如何拥有一个AI模特?AI绘画换脸换装教程
方便后续在图生图中,新生成的更像原图。不过销售商品这种商用的话,最好用经过授权的脸部lora,这样可以控制模特看起来都是同一个人,显得专业,高大上一些,也不容易吃律师函。(3)如果觉得脸部偏国外审美,可以加上亚洲小姐姐的lora,比如Korea doll,Asian doll之类的lora。这种做法比训练服装lora的好处是,服装的细节可以完全保留,不会有细节的差异,产生货不对版的投诉和退货。转载 2023-04-09 18:13:03 · 546 阅读 · 0 评论 -
CV不存在了?Meta发布“分割一切”AI 模型SAM,CV或迎来GPT-3时刻
Meta 表示,他们受到语言模型中提示的启发,因而其训练完成的 SAM 可以为任何提示返回有效的分割掩码,其中提示可以是前景、背景点、粗框或掩码、自由格式文本,或者说能指示图像中要分割内容的任何信息。SA-1B 的图像来自跨不同地理区域和收入水平的多个国家或地区的照片提供者,在拥有更多图像的同时对所有地区的总体代表性也更好。与之前的大规模分割数据收集工作相比,Meta 的方法比 COCO 完全手动基于多边形的掩码注释快 6.5 倍,比之前最大的数据注释工作快 2 倍,这是因为有了 SAM 模型辅助的结果。转载 2023-04-09 16:55:21 · 59 阅读 · 0 评论 -
PyTorch 大杀器:用 AdaptDL 优化 GPU 集群中的 EDL
内容导读 AdaptDL 是一个资源自适应深度学习训练和调度框架,是 CASL 开源项目的一部分。AdaptDL 的目标是使分布式 DL 在动态资源环境中变得简单和高效。EDL 全称 Elastic Deep Learning,由 LF AI 基金会孵化,是一个能动态调整并行度的深度神经网络训练框架。它支持多租户集群管理,可以平衡模型训练等待及完成时间,能够提高资源利用率。训练深度学习模型通常比较耗时,在算力资源、储存空间等方面的花费也比较高昂。转载 2023-04-04 16:20:27 · 31 阅读 · 0 评论 -
集多个AI绘画开源模型于一体的工作台#invokeAI使用测评
但在图片储存上midjourney使用频道的方式,在进行图片分类、储存方面更加完善,可以将不同的图片分配到不同的频道内进行储存,目前invokeAI还没有将图片分类储存的功能。在进行大量的出图时,midjourney采用的是上下滚动的翻阅设计,而invokeAI采用的是将图片集中放在右侧栏中的设计,invokeAI在直接选取之前的图像上更加方便。invokeAI中拥有大部分的基本AI绘画生成功能,例如文生图,图生图、种子值、放大图像等等,下面拿了invokeAI的一些特别的功能进行了测评。转载 2023-03-30 15:07:26 · 559 阅读 · 0 评论 -
理解DALL·E 2, Stable Diffusion和 Midjourney工作原理
【者按:随着AIGC的兴起,各位小伙伴们对文生图工具DALL-E 2、Stable Diffusion和Midjourney一定并不陌生。本期IDP Inspiration,小白将和大家一同走进这三者背后的技术原理,一探究竟。以下是译文,Enjoy!| 岳扬在过去的几年里,人工智能(AI)取得了极大的进展,而AI的新产品中有AI图像生成器。这是一种能够将输入的语句转换为图像的工具。文本转图像的AI工具有许多,但最突出的就属DALL-E 2、Stable Diffusion和Midjourney了。转载 2023-03-30 14:54:05 · 1068 阅读 · 0 评论 -
【AI绘画】推荐一个好用的新模型—MidjourneyV4(附关键词)
这个模型应该是基于Midjourney练的,效果感觉有点偏3D,画人物和一些大场景都很赞!对描述词的要求感觉不是很高,有些简单的描述词也能出好图。今天给大家推荐一个效果很好的新模型,MidjourneyV4,是一个大佬练出来的,并开源分享的一个模型。),他们家最近新推出的【模型市场】里面有很多人分享的开源模型。如果没有条件本地部署的可以试试我之前推荐的爱作画网站(效果是不是还可以,画场景也很棒,有游戏里面的感觉。原作者:prompthero。喜欢的朋友可以自己去试试哦~转载 2023-03-30 14:45:56 · 898 阅读 · 0 评论 -
【本周特惠课程】深度学习模型优化(剪枝量化蒸馏)核心技术理论与实战!...
【本周特惠课程】深度学习模型优化(剪枝量化蒸馏)核心技术理论与实战!..._言有三的博客-CSDN博客原创 2023-03-30 10:27:38 · 14 阅读 · 0 评论 -
使用Linux训练LoRA模型
2023年春节后,我发现Stable Diffusion webui更新了LoRA模块,突然间LoRA这个名词在AI绘图中火了起来,civita网站也突然间多了很多各式各样的模型,这时候LoRA彻底火出圈了~然后,特么尴尬的来了,Stable Diffusion webui中的Dreambooth extension训练所产生的LoRA小模型,无法在webui中的LoRA模块进行加载,这大大限制了原友们的创作热情。--reg_data_dir是刚才设置的1_girl文件夹的上一级文件夹的路径;转载 2023-03-29 22:52:17 · 1654 阅读 · 0 评论 -
ECCV 2022 | CMU提出首个快速知识蒸馏的视觉框架:ResNet50 80.1%精度,训练加速30%
除了上述介绍的采用多个 crops 来进行加速外,作者还分析了其他一些加速的因素,如下图所示,ReLabel 在训练模型阶段需要生成采样数据的坐标,同时需要使用 RoI-Align 和 Softmax 来生成所需的软标签,相比而言,FKD 直接保存了坐标信息和最终软标签格式,因此读取标签文件之后不需要做任何额外的后处理就可以直接训练,速度相比 ReLabel 也会更快。需要注意的是这个速度对比实验中,FKD crop 数目为 4,如果选取更大的 crop 数目可以得到更高的加速比。原创 2023-03-12 18:32:25 · 192 阅读 · 0 评论 -
Mind+Python+Mediapipe项目——AI健身之跳绳
第二步,分析数据,得到判定点纵坐标。思路是,坐标数据是上下波动,将数据中的波峰和波谷分别提取出来计算均值,然后取中值,和差值。但这里就存在,Mediapipe识别准确度的问题,可能在上升或下降的过程中数据不平滑,出现数据波动。现在看效果,还不错。2、标准点纵坐标的判定区间(point_sd["y"]+5与 point_sd["y"]+15)是根据运行后的数据人为分析出来的,只对这一段视频有效,不具有通用性。1、在正式跳绳计数前,先试跳,通过数据分析出标准点、判定区间(防止数据在判定点抖动,出现错误计数)。原创 2023-02-22 18:30:44 · 1090 阅读 · 1 评论 -
继北极星项目后,又一款低成本AR眼镜开源方案:OpenAR
2018年的时候,Leap Motion(Ultraleap前身)曾开源了一款低成本、简易的AR头显方案:Project North Star(北极星项目)。该方案主要用来帮助爱好者、开发者们快速上手AR开发,而无需购买HoloLens等昂贵的AR头显。除了北极星AR外,这些年来类似的开源AR头显很少,采用率也不高。我们知道,由于AR光学成本高,目前市面上支持3D显示的AR眼镜通常都比较昂贵,普通人难以接受,而机构批量采购的成本也很高。在低成本AR眼镜(不包含AR观影眼镜)领域,目前还比较缺失。转载 2023-02-14 16:32:17 · 110 阅读 · 0 评论 -
python-ue4-metahuman-nerf:我创造了一个数字人!!
原文:目录收起1. 准备工作:制作 MetaHuman 角色1.1 创建 MetaHuman 角色1.2 Quixel Bridge 下载 MetaHuman1.3 导出 MetaHuman 到 UE42. UE 渲染 MetaHuman 的多视点图片2.1 如何在 UE 中手动渲染视频?2.2 Python 自动化渲染2.3 全部代码3. 渲染结果。转载 2023-02-13 21:39:06 · 833 阅读 · 0 评论 -
采用thread方式python+opencv+pyqt5控制摄像头在Qlabel上显示
采用pyqt5设计界面时,网上一般都是采用定时器timer 模式,这个一般要设置一个固定时间执行一次,会导致程序运行不流畅。这次也是第一次用pyqt5不大熟悉,调试了一天才调试正常。原创 2023-02-10 22:03:21 · 106 阅读 · 0 评论 -
Python+Opencv实现摄像头答题卡识别
前言:大家好,我是一名高中物理教师,比较喜欢学习编程,由于平时批改作业比较忙,所以突然冒出个想法,做个摄像头答题卡识别就会减轻我平时批改作业的很多负担,特别是选择题,重复性的劳动,意义不大,如果用机器代替工作那该多好呀,网上一搜,有很多教程,但是都不太满意,所以我趁着躲避新冠在家隔离的这段时间,边学边做,终于做成了,还没开学,等开学了就去试试,通过博客园,把我的心得分享给大家!第五,答题卡设置要求:横平竖直,格子的宽高相同(我设置的是64行,23列),便于分割!第六,识别部分:① 打开摄像头,捕获一帧。转载 2023-02-09 22:12:52 · 325 阅读 · 0 评论 -
机器人操作系统ROS—深度相机+激光雷达实现vSLAM建图与导航 转载
简单来说就是,发出一道经过处理的光,碰到物体以后会反射回来,捕捉来回的时间,因为已知光速和调制光的波长,所以能快速准确计算出到物体的距离。欢迎留言,我将带大家一起实现~!这里可以注意到,相对于机器人的 TF 坐标位置,雷达数据并不是像我们常见的激光雷达数据是 360 度的,这是由于深度相机的视场角(即 FOV,我们这款相机水平 FOV 为 58.4 度,垂直FOV 为 45.5 度)是有限的,所以转换出的雷达数据角度范围和相机是水平 FOV是一致的,简单理解就是,只能看到相机前方一定角度范围内的东西。转载 2023-02-09 16:47:08 · 995 阅读 · 0 评论 -
超详细语义视觉SLAM综述
然而,vSLAM 无法在动态复杂的环境中实现良好的定位通过将语义信息与 vSLAM 相结合,语义 vSLAM具有解决上述问题的能力。然后,我们收集并分析了当前最先进的语义vSLAM系统Semantic vSLAM 不仅可以在建图过程中获取环境中的几何结构信息,还可以识别环境中的物体并获取语义信息,以适应复杂的环境,执行更智能的任务。与之前的纯几何vSLAM相比,新阶段的感知SLAM具有更鲁棒的性能和更高水平的环境理解,这归功于将图像语义信息应用于SLAM 进行姿态估计、闭环和建图。转载 2023-02-09 16:42:08 · 157 阅读 · 0 评论 -
人体姿态识别方案详解
MoveNet是一种超快速且准确的模型,可检测身体的 17 个关键点。受莱昂纳多的维特鲁威人的启发,我们预测了一个人臀部的中点,外接整个人的圆的半径,以及连接肩部和臀部中点的线的倾斜角。OpenMMD具体使用教程在b站上有一个大佬总结的很清楚了,但有一个问题,他只能绑定在mmd模型上,mmd模型在游戏里的通用性并不大,属于比较小范围的应用。目前AR,VR,元宇宙都比较火,需要实际场景和虚拟中进行交互的情况,因此研究了通过摄像头获取图像进行识别,本文主要概述了在人体身体姿势识别跟踪方面的一些调研和尝试。转载 2023-02-04 10:05:44 · 403 阅读 · 0 评论 -
Python玩人工智能:你的俯卧撑做对了吗?
们已经有了和,今天就来玩俯卧撑啦!转载 2023-02-03 10:03:40 · 113 阅读 · 0 评论 -
俯卧撑计数 opencv-python + mediapipe
该项目有两个文件即可运行:文件一:PoseModule.py文件二:main.pyPoseModule.py。原创 2023-02-03 09:40:43 · 507 阅读 · 0 评论 -
MediaPipe介绍
https://blog.csdn.net/weixin_38346042/article/details/123399492原创 2023-01-17 15:20:46 · 47 阅读 · 0 评论 -
InfoGAN详细介绍及特征解耦图像生成
算法思想:将编码器和解码器分开,但是加一个判别器,将他们的输入和输出同时作为判别器的输入,然后区分是来自编码器还是解码器,如果无法分别来自哪个,就说明编码器的输入图片和解码器生成的图片很接近,编码器输出的z和解码器输入的z很接近,目的就达到了。如上图:实际情况中的特征是非常杂乱无章的,然后我们希望的特征关系是比较整齐明了的,具体哪一列表示什么很清晰,从而便于控制它。BiGAN就是双向GAN的意思,这里的判别器与上面介绍的判别器不一样,这里的判别器接收的是图像和编码,判别图像和编码是来自编码器还是解码器。转载 2023-01-16 21:46:59 · 332 阅读 · 0 评论 -
GAN“家族”又添新成员——EditGAN,不但能自己修图,还修得比你我都好
GAN包含了两个神经网络,生成器G(Generator)和鉴别器D(Discriminator),生成器的作用是生成图片,鉴别器则接收图片作为输入对象,随后对图像的真假进行辨别,输出1为真,输出0则为假。可以说,EditGAN是第一个GAN驱动的图像编辑框架,它能提供非常高精度的编辑,只需要很少带注释的训练数据(并且不依赖于外部分类器),运行实时交互,允许多个编辑的直接组合,并适用于真实嵌入、GAN生成图像,甚至是域外图像。当然,要实现这种有明确语义的编辑方式,除了依靠数学的力量,也可以借助语言的魔法。原创 2023-01-16 21:43:15 · 396 阅读 · 0 评论 -
【人工智能专题】基于 GAN 的艺术风格化——图像风格迁移
原文:https://mp.weixin.qq.com/s?__biz=MzAxMzEwMDM2Mg==&mid=2652847175&idx=3&sn=51dcb41bc5cac7dfe5e36b75113cf5f2&chksm=804c2862b73ba174fdb42075db1676cedd071e81230478f9262b81499b947f470ded7734afa9&scene=27AI学习分享活动是我协会举办的2022浙江程序员节系列活动之一,分享内容包括程序员的人工智能数字化进阶、趣味A转载 2023-01-11 22:34:59 · 523 阅读 · 0 评论 -
语义分割丨DeepLab系列总结「v1、v2、v3、v3+」
(1)是由于DCNN中的重复池化和下采样降低了空间分辨率,一种方法是采用转置卷积(deconvolutional layer),但是需要额外的空间和计算量。首先经过采用空洞卷积的DCNN如VGG-16或ResNet101得到粗略的分割结果,然后通过双线性插值将feature map恢复成原图分辨率,最后用全连接的CRF来精细化分割结果。为了解决该问题,DeepLab引入。花了点时间梳理了一下DeepLab系列的工作,主要关注每篇工作的背景和贡献,理清它们之间的联系,而实验和部分细节并没有过多介绍,请见谅。转载 2023-01-11 09:24:26 · 424 阅读 · 0 评论 -
数字人视频课程
数字人音频驱动嘴唇。原创 2023-01-09 22:41:46 · 101 阅读 · 0 评论 -
深度掌握模型剪枝+模型量化+知识蒸馏3大核心模型压缩技术理论
神经网络与深度学习理论,深度学习模型设计与优化,计算机视觉的基础领域,AI美学,2D与3D人脸算法,生成对抗网络GAN等领域。另外:实践部分的内容也已经有部分更新,包括Distiller框架的介绍与使用,模型剪枝的实践,模型量化的实践,模型蒸馏的实践,本周正在继续完善充实实践部分,预计会超过8个小时,请大家拭目以待!模型压缩与优化是专门针对模型进行精简的技术,这是模型能够在各类嵌入式平台使用的关键技术,包括紧凑模型设计,模型剪枝,模型量化,模型蒸馏,自动化模型设计等内容。转载 2023-01-08 22:34:26 · 178 阅读 · 0 评论 -
姿态估计开源项目汇总
为了在帧中匹配与同一个人相对应的姿势,还提供了一种称为Pose Flow的高效在线姿势跟踪器。它是第一个在PoseTrack Challenge数据集上达到60+ mAP(66.5 mAP)和50+ MOTA(58.3 MOTA)的开源在线姿势跟踪器。目的是为最流行的人体姿势数据库(例如,MPII人体姿势,LSP和FLIC)提供训练/推断/评估的接口,并为数据加载器提供各种数据增强选项。通过对所有动物的深度学习,对用户定义的特征进行无标记的姿势估计。Android和iOS平台的实时单人姿势估计。原创 2023-01-03 16:57:56 · 126 阅读 · 0 评论 -
yolo 视频课程收集
唐博士yolo v3视频学习、2、YOLOv5视频学习(白勇)原创 2023-01-03 12:56:13 · 100 阅读 · 0 评论 -
Yolov5算法解读
Yolov5算法解读_elkluh的博客-CSDN博客_yolov5模型解读转载 2023-01-02 22:46:56 · 45 阅读 · 0 评论 -
目标检测之Yolov3与Anchor-Free
作为工程项目来说,Yolo-v3的检测效果应该是相当不错的,这里我们不去讨论mAP、COCO数据集上的表现等刷分用的参数,就仅仅看它在实际应用中的performance,速度、精度都很令人满意。重要的是,Yolo-v3开源代码的使用极其简单,即便是看源码、根据自己的需求修改源码都很方便(主要是代码写得很清晰)。参考Tensorflow版本的项目,得到下图结果。特征提取:Yolo-v2 中使用了一个“透层”将 26*26 的特征图连接到 13*13 的特征图上,这有点类似于ResNet的残差思想;转载 2023-01-02 22:38:49 · 143 阅读 · 0 评论 -
TensorRT详细入门指北,如果你还不了解TensorRT,过来看看吧!
大名鼎鼎的。转载 2022-12-12 15:11:44 · 270 阅读 · 0 评论 -
TensorFlow XLA 初探
1]XLA全称Accelerated Linear Algebra(加速线性代数),是在特定领域下的线性代数编译器。TensorFlow生态中包含许多的编译器和优化器,使得代码可以在不同的软硬件堆栈上运行。TensorFlow MLIR 的一些组件上图[2]是一个概览,其中XLA本质上是一种深度学习编译器,转载 2022-12-12 11:23:17 · 149 阅读 · 0 评论 -
Ubuntu+Yolov5+TensortRT加速部署
本文章向大家介绍Ubuntu+Yolov5+TensortRT加速部署,主要包括Ubuntu+Yolov5+TensortRT加速部署使用实例、应用技巧、基本知识点总结和需要注意事项,具有一定的参考价值,需要的朋友可以参考一下。转载 2022-12-12 09:01:16 · 376 阅读 · 1 评论 -
TensorRT 高级用法
首先需要重载一个IPlugin的基类,生成自己的Plugin的实现,告诉GPU或TensorRT需要做什么操作,要构建的Plugin是什么样子,其实就是类似于开发一个应用软件的插件,需要在上面实现什么功能。但是由于现在深度学习技术发展日新月异,各种不同结构的自定义层(比如:STN)层出不穷,所以tensorRT是不可能全部支持当前存在的所有层的。基本上比较经典的层比如,卷积,反卷积,全连接,RNN,softmax等,在tensorRT中都是有对应的实现方式的,tensorRT是可以直接解析的。原创 2022-12-12 08:45:23 · 459 阅读 · 0 评论 -
TensorRT(二)TensorRT使用教程(Python版)
在这一步骤的主要目的是,根据onnx所描述的模型结构和权重数值和当前的软硬件环境生成对应的执行计划,并且序列化为xxx.engine文件持久化保存,这一步时间比较长,所以需要序列化执行文件,这样在推理阶段直接加载此文件构造出Engine。(说实话,英伟达在AI领域的布局已经基本完成了,从硬件到软件的生态几乎已经彻底完善了,按照当前的趋势,盲猜英伟达将会在不远的未来抛弃CPU和运行内存,因为数据从内存拷贝到显存貌似这部分时间开销挺大的)这一步主要是为了将深度学习模型的结构和参数导出来。转载 2022-12-10 11:45:55 · 125 阅读 · 0 评论