自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

政安晨——致力于AI人工智能数字互动领域

分享人工智能感知交互技术的研究成果与产品经验,助力人工智能数字产业生态。

  • 博客(226)
  • 资源 (1)
  • 收藏
  • 关注

原创 政安晨【零基础玩转各类开源AI项目】基于Ubuntu系统部署Hallo :针对肖像图像动画的分层音频驱动视觉合成

这项研究深入探讨了同步面部运动的复杂性,以及在基于扩散的方法框架内创建视觉上吸引人、时间上一致的动画。这个创新方法摒弃了依赖参数模型进行中间面部表征的传统模式,采用了端到端扩散模式,并引入了分层音频驱动视觉合成模块,以提高音频输入和视觉输出(包括嘴唇、表情和姿势运动)之间的对齐精度。 我们提出的网络架构无缝集成了基于扩散的生成模型、基于 UNet 的去噪器、时序对齐技术和参考网络。 所提出的分层音频驱动视觉合成技术可对表情和姿势多样性进行自适应控制,从而更有效地实现针对不同身份的个性化定制。

2024-07-18 19:55:54 678

原创 政安晨:【Keras机器学习示例演绎】(五十五)—— 使用 TabTransformer 学习结构化数据

本文目标:利用上下文嵌入进行结构化数据分类。本示例演示了如何使用 TabTransformer 进行结构化数据分类,TabTransformer 是一种用于监督和半监督学习的深度表格数据建模架构。 TabTransformer 建立在基于自我注意的变换器基础之上。 转换器层将分类特征嵌入转换为稳健的上下文嵌入,以实现更高的预测准确性。

2024-07-16 05:45:00 1810

原创 政安晨:【Keras机器学习示例演绎】(五十四)—— 使用神经决策森林进行分类

本文目标:如何为深度神经网络的端到端学习训练可微分决策树。本示例提供了 P. Kontschieder 等人提出的用于结构化数据分类的深度神经决策林模型的实现。 它演示了如何建立一个随机可变的决策树模型,对其进行端到端训练,并将决策树与深度表示学习统一起来。

2024-07-11 05:45:00 739

原创 政安晨【零基础玩转各类开源AI项目】基于Ubuntu系统部署MuseV (踩完了所有的坑):基于视觉条件并行去噪的无限长度和高保真虚拟人视频生成

本文目标:基于Ubuntu系统从源码部署MuseV项目。作者政安晨踩完了所有的坑,小伙伴们可以开心的笑纳。

2024-07-10 18:16:47 947 2

原创 政安晨:【Keras机器学习示例演绎】(五十三)—— 使用 TensorFlow 决策森林进行分类

TensorFlow 决策森林(TensorFlow Decision Forests)是与 Keras API 兼容的决策森林模型的最新算法集合。 这些模型包括随机森林(Random Forests)、梯度提升树(Gradient Boosted Trees)和 CART,可用于回归、分类和排序任务。

2024-07-09 05:45:00 776

原创 政安晨:【Keras机器学习示例演绎】(五十二)—— 使用门控残差和变量选择网络进行分类

本文目标:使用门控残差和变量选择网络进行收入水平预测。本示例演示了如何使用 Bryan Lim 等人在 Temporal Fusion Transformers (TFT) for Interpretable Multi-horizon Time Series Forecasting 中提出的门控残差网络(GRN)和变量选择网络(VSN)进行结构化数据分类。GRN 为模型提供了灵活性,只在需要时才进行非线性处理。

2024-07-07 16:52:04 119

原创 政安晨【零基础玩转各类开源AI项目】基于Ubuntu系统部署ComfyUI:功能最强大、模块化程度最高的Stable Diffusion图形用户界面和后台

ComfyUI这套框架可让您使用基于图形/节点/流程图的界面设计和执行高级稳定扩散管道。

2024-07-05 15:54:58 1031

原创 政安晨【零基础玩转各类开源AI项目】解析开源:Stable Diffusion 3 论文及用户界面工具 StableSwarmUI

新的多模态扩散变换器(MMDiT)架构为图像和语言表征使用了单独的权重集,与稳定扩散的以前版本相比,提高了文本理解和拼写能力。StableSwarmUI 是一个模块化的稳定扩散网络用户界面,其重点是让用户可以方便地使用动力工具,并提供高性能和可扩展性。

2024-06-15 05:45:00 890

原创 政安晨【零基础玩转各类开源AI项目】解析开源:gradio:在Python中构建机器学习Web应用

Gradio 是一个开源 Python 软件包,可以让你快速为机器学习模型、API 或任意 Python 函数创建演示或网络应用。然后,你就可以使用 Gradio 内置的分享功能,在几秒钟内分享你的演示或网络应用程序的链接。无需 JavaScript、CSS 或网络托管经验!

2024-06-09 05:45:00 1830

原创 政安晨【零基础玩转各类开源AI项目】解析开源:IDM-VTON:改进真实虚拟试穿的扩散模型

该论文研究了基于图像的虚拟试穿,即在一对分别描绘人物和服装的图像中,渲染出人物穿着特定服装的图像。与其他方法(如基于 GAN 的方法)相比,以前的工作将现有的基于示例的内绘扩散模型用于虚拟试穿,以提高生成的视觉效果的自然度,但它们未能保留服装的身份。为了克服这一局限性,我们提出了一种新型扩散模型,它能提高服装的保真度并生成真实的虚拟试穿图像。

2024-06-07 08:44:48 773

原创 政安晨【零基础玩转各类开源AI项目】:解析开源项目:Champ 利用三维参数指导制作可控且一致的人体图像动画

介绍了一种人体图像动画制作方法,该方法利用潜在扩散框架中的三维人体参数模型,来增强 curernt 人体生成技术中的形状排列和运动引导。该方法利用 SMPL(Skinned Multi-Person Linear)模型作为三维人体参数模型,建立统一的身体形状和姿势表示。这有助于从源视频中准确捕捉复杂的人体几何和运动特征。

2024-06-03 16:24:23 910

原创 政安晨:【Keras机器学习示例演绎】(五十一)—— 利用广义网络、深度网络和交叉网络进行结构化数据学习

本文目标:使用 "宽深 "和 "深交 "网络进行结构化数据分类。本例演示如何使用两种建模技术进行结构化数据分类:广度模型和深度模型深度模型和交叉模型

2024-06-02 21:44:14 1007

原创 政安晨【零基础玩转各类开源AI项目】:解析开源项目的论文:Physical Non-inertial Poser (PNP)

现有的惯性运动捕捉技术使用人体根坐标框架来估计局部姿势,并默认将其视为惯性框架。我们认为,当根坐标系具有线性加速度或旋转时,根坐标系在理论上应被视为非惯性系。在本文中,我们通过根据物理学原理精心设计的自动回归估计器,对非惯性框架中不可忽略的虚构力进行建模。有了虚力,与力相关的 IMU 测量(加速度)就能在非惯性框架中得到正确补偿,从而满足牛顿运动定律。在这种情况下,加速度与身体运动之间的关系是确定的、可学习的,我们训练一个神经网络对其进行建模,以获得更好的运动捕捉效果。

2024-06-02 21:11:04 382

原创 我的创作纪念日

在这个人工智能的大时代中,作为AI领域中的技术从业者,我希望陪伴这个大时代不断拓新、不断探索,AI的时代大潮才刚刚开始,大众驾驭人工智能的能力还非常有限。路漫漫其修远兮,吾将上下而求索。

2024-06-02 14:15:33 560

原创 政安晨:【Keras机器学习示例演绎】(五十)—— 从零开始的结构化数据分类

目标:对结构化数据进行二元分类,包括数字特征和分类特征。本例演示如何从原始 CSV 文件开始进行结构化数据分类。我们的数据包括数字特征和分类特征。我们将使用 Keras 预处理层对数字特征进行归一化处理,并对分类特征进行矢量化处理。

2024-05-22 05:45:00 913

原创 政安晨:【Keras机器学习示例演绎】(四十九)—— 利用 KerasNLP 实现语义相似性

本文目标 :只需几行代码就能对表格数据进行分类。本例演示了如何从原始 CSV 文件开始进行结构化数据分类(也称为表格数据分类)。我们的数据包括数字特征、整数分类特征和字符串分类特征。我们将使用实用程序 keras.utils.FeatureSpace 对特征进行索引、预处理和编码。代码改编自从零开始的结构化数据分类示例。那一个示例使用 Keras 预处理层管理自己的底层特征预处理和编码,而在本示例中,我们将一切委托给 FeatureSpace,使工作流程变得极其快速和简单。

2024-05-21 07:24:33 820

原创 政安晨:【Keras机器学习示例演绎】(四十八)—— 利用 KerasNLP 实现语义相似性

本文目标:在语义相似性任务中使用来自 KerasNLP 的预训练模型。语义相似性是指确定两个句子在含义方面相似程度的任务。在本示例中,我们已经了解了如何利用 HuggingFace Transformers 库使用 SNLI(斯坦福自然语言推理)语料库来预测句子的语义相似性。在本文中,我们将学习如何使用 KerasNLP(核心 Keras API 的扩展)来完成相同的任务。此外,我们还将了解 KerasNLP 如何有效减少模板代码并简化构建和使用模型的过程。

2024-05-20 05:45:00 1413

原创 政安晨:【Keras机器学习示例演绎】(四十七)—— 进行数字加法的顺序到顺序学习

本文目标:学习数字串加法的模型,例如 "535+61" -> "596"。

2024-05-19 06:30:00 954

原创 政安晨:【Keras机器学习示例演绎】(四十六)—— 使用变换器进行命名实体识别

本文目标:使用来自 CoNLL 2003 共享任务的 Transformers 和数据进行 NER。命名实体识别(NER)是识别文本中命名实体的过程。命名实体的例子有"人物"、"地点"、"组织"、"日期 "等。NER 本质上是一种标记分类任务,每个标记都被归入一个或多个预定类别。

2024-05-19 05:45:00 1872

原创 政安晨:【Keras机器学习示例演绎】(四十五)—— 使用变换器进行命名实体识别

本文目标:使用来自 CoNLL 2003 共享任务的 Transformers 和数据进行 NER。在本练习中,我们将训练一个基于 Transformer 的简单模型来执行 NER。我们将使用来自 CoNLL 2003 共享任务的数据。有关该数据集的更多信息,请访问数据集网站。不过,由于获取该数据需要额外的步骤,即获得免费许可证,因此我们将使用 HuggingFace 的数据集库,其中包含该数据集的处理版本。

2024-05-14 07:34:31 894

原创 政安晨:【Keras机器学习示例演绎】(四十四)—— 使用序列到序列转换器实现英语到西班牙语的翻译

本文目标:实现序列到序列转换器,并在机器翻译任务中对其进行训练。在本例中,我们将建立一个序列到序列 Transformer 模型,并在英语到西班牙语的机器翻译任务中对其进行训练。

2024-05-14 06:42:47 718

原创 政安晨:【Keras机器学习示例演绎】(四十三)—— 使用 KerasNLP 实现英语到西班牙语的翻译

本文目标:使用 KerasNLP 在机器翻译任务中训练序列到序列转换器模型。KerasNLP 提供了 NLP 的构建模块(模型层、标记化器、度量指标等),方便构建 NLP 管道。在本示例中,我们将使用 KerasNLP 层构建编码器-解码器 Transformer 模型,并在英语-西班牙语机器翻译任务中对其进行训练。

2024-05-12 05:45:00 773

原创 政安晨:【Keras机器学习示例演绎】(四十二)—— 使用 KerasNLP 和 tf.distribute 进行数据并行训练

本文目标:使用 KerasNLP 和 tf.distribute 进行数据并行训练。分布式训练是一种在多台设备或机器上同时训练深度学习模型的技术。它有助于缩短训练时间,并允许使用更多数据训练更大的模型。KerasNLP 是一个为自然语言处理任务(包括分布式训练)提供工具和实用程序的库。在本文中,我们将使用 KerasNLP 在 wikitext-2 数据集(维基百科文章的 200 万字数据集)上训练基于 BERT 的屏蔽语言模型 (MLM)。

2024-05-11 12:37:36 776

原创 政安晨:【Keras机器学习示例演绎】(四十一)—— 使用预先训练的词嵌入

本文目标:使用预训练的 GloVe 词嵌入对 Newsgroup20 数据集进行文本分类。在本例中,我们将展示如何使用预训练的单词嵌入来训练文本分类模型。我们将使用 Newsgroup20 数据集,该数据集包含 20,000 条属于 20 个不同主题类别的留言板信息。对于预训练的词嵌入,我们将使用 GloVe 嵌入。

2024-05-09 10:28:40 860

原创 政安晨:【Keras机器学习示例演绎】(四十)—— 使用转换器进行文本分类

本文目标:将 Transformer 块作为 Keras 层实施,并将其用于文本分类。

2024-05-08 15:36:43 399

原创 政安晨:【Keras机器学习示例演绎】(三十九)—— 使用 FNet 进行文本分类

本文目标:使用 keras_nlp.layers.FNetEncoder 层对 IMDb 数据集进行文本分类。在本例中,我们将演示 FNet 在文本分类任务中取得与 vanilla Transformer 模型相当的结果的能力。我们将使用 IMDb 数据集,该数据集收集了贴有正面或负面标签的电影评论(情感分析)。

2024-05-08 14:58:56 886

原创 政安晨:【Keras机器学习示例演绎】(三十八)—— 从零开始的文本分类

本文目标:从原始文本文件开始进行文本情感分类。本示例展示了如何从原始文本(磁盘上的一组文本文件)开始进行文本分类。我们在 IMDB 情感分类数据集(未处理版本)上演示了该工作流程。我们使用 TextVectorization 层进行分词和索引。

2024-05-07 07:05:50 991 1

原创 政安晨【零基础玩转各类开源AI项目】:基于Ubuntu系统本地部署使用GPT-SoVITS进行语音克隆与TTS语音生成

这是一款开源的AI音色克隆框架,目前只有TTS(文字转语音)功能,将来会更新变声功能。现在介绍如何搭建部署。类似的还有SVC(歌声转换)、SVS(歌声合成)等。目前GPT-SoVITS只有TTS功能,也就是不能唱歌。GPT-SoVITS实现了:—— 由参考音频的情感、音色、语速控制合成音频的情感、音色、语速—— 可以少量语音微调训练,也可不训练直接推理—— 可以跨语种生成,即参考音频(训练集)和推理文本的语种为不同语种

2024-05-07 06:50:35 2294 3

原创 政安晨:【Keras机器学习示例演绎】(三十七)—— 在计算机视觉中学习调整大小

本文目标:在计算机视觉中学习调整大小。人们普遍认为,如果我们限制视觉模型像人类一样感知事物,它们的性能就能得到提高。例如,在这项工作中,Geirhos 等人发现,在 ImageNet-1k 数据集上预先训练的视觉模型偏重于纹理,而人类大多使用形状描述符来形成共同的感知。但这种观点是否总是适用,尤其是在提高视觉模型的性能时?

2024-05-06 06:30:00 513

原创 政安晨:【Keras机器学习示例演绎】(三十六)—— 用聚合注意力增强信念网络

本文目标:构建补丁-通信网架构并将其注意力图谱可视化。视觉转换器(Dosovitskiy 等人)已成为卷积神经网络的有力替代品。视觉转换器以基于补丁的方式处理图像。然后将图像信息汇总为一个 CLASS 标记。该标记与特定分类决策中最重要的图像片段相关联。

2024-05-06 05:45:00 471 1

原创 政安晨:【Keras机器学习示例演绎】(三十五)—— 使用 LayerScale 的类注意图像变换器

本文目标:实现配备关注类和 LayerScale 的图像转换器。在本文中,我们将实现 Touvron 等人在《深入研究图像变换器》(Going deeper with Image Transformers)一书中提出的 CaiT(Class-Attention in Image Transformers)。深度缩放,即增加模型深度以获得更好的性能和泛化,在卷积神经网络(例如 Tan 等人,Dollár 等人)中已经取得了相当大的成功。

2024-05-05 06:45:00 869

原创 政安晨:【Keras机器学习示例演绎】(三十四)—— FixRes:修复训练-测试分辨率差异

本文目标:减少训练集和测试集之间的分辨率差异。在训练和测试视觉模型时使用相同的输入图像分辨率是一种常见的做法。然而,正如《修复训练-测试分辨率差异》(Touvron 等人)一书所研究的那样,这种做法会导致性能不达标。数据增强是深度神经网络训练过程中不可或缺的一部分。

2024-05-05 05:45:00 369

原创 政安晨:【Keras机器学习示例演绎】(三十三)—— 知识提炼

本文目标:实施经典知识蒸馏。知识蒸馏(Knowledge Distillation)是一种模型压缩程序,在这种程序中,一个小的(学生)模型被训练成与一个大的预训练(教师)模型相匹配。通过最小化损失函数,将知识从教师模型转移到学生模型,目的是匹配软化的教师对数以及地面实况标签。通过在 softmax 中应用 "温度 "缩放函数来软化对数,从而有效地平滑概率分布,并揭示教师所学的类间关系。

2024-05-04 06:30:00 601 1

原创 政安晨:【Keras机器学习示例演绎】(三十二)—— 在 Vision Transformers 中学习标记化

本文目标:为 "视觉变换器"自适应生成较少数量的令牌。视觉变换器(Dosovitskiy 等人)和许多其他基于变换器的架构(Liu 等人、Yuan 等人)在图像识别方面取得了显著成果。下面将简要介绍用于图像分类的视觉变换器架构所涉及的组件:—— 从输入图像中提取小块图像。—— 线性投影这些斑块。—— 为这些线性投影添加位置嵌入。—— 通过一系列 Transformer(Vaswani 等人)模块运行这些投影。—— 最后,从最后的 Transformer 模块中提取表示并添加分类头。

2024-05-04 05:45:00 560 1

原创 政安晨:【Keras机器学习示例演绎】(三十一)—— 梯度集中,提高训练效果

本文目标:实施梯度集中化,提高 DNN 的训练性能。本示例实现了 Yong 等人提出的深度神经网络新优化技术 "梯度集中化"(Gradient Centralization),并在 Laurence Moroney 的 "马或人 "数据集(Horses or Humans Dataset)上进行了演示。梯度集中化既能加快训练过程,又能提高深度神经网络的最终泛化性能。它通过将梯度向量集中为零均值,直接对梯度进行操作。

2024-05-03 06:15:00 1340 1

原创 政安晨:【Keras机器学习示例演绎】(三十)—— 使用变换器进行视频分类

本文目标:用混合变压器训练视频分类器。本示例是使用 CNN-RNN 架构(卷积神经网络-循环神经网络)进行视频分类示例的后续。这一次,我们将使用基于变换器的模型(Vaswani 等人)对视频进行分类。阅读本示例后,您将了解如何开发基于变换器的混合模型,用于在 CNN 特征图上运行的视频分类。

2024-05-03 05:45:00 672 1

原创 政安晨:【Keras机器学习示例演绎】(二十九)—— 利用卷积 LSTM 进行下一帧视频预测

本文目标:如何建立和训练用于下一帧视频预测的卷积 LSTM 模型。卷积 LSTM 架构通过在 LSTM 层中引入卷积递归单元,将时间序列处理和计算机视觉结合在一起。在本示例中,我们将探讨卷积 LSTM 模型在下一帧预测中的应用,下一帧预测是指在一系列过去帧的基础上预测下一个视频帧的过程。

2024-05-02 07:01:14 769 1

原创 政安晨:【Keras机器学习示例演绎】(二十八)—— 使用 卷积神经网络与循环神经网络 架构进行视频分类

文本目标:在 UCF101 数据集上使用迁移学习和递归模型训练视频分类器。

2024-05-02 06:47:41 985 1

原创 政安晨:【Keras机器学习示例演绎】(二十七)—— 利用 NNCLR 进行自我监督对比学习

本文目标:计算机视觉自监督学习方法 NNCLR 的实现。自我监督表示学习旨在从原始数据中获取稳健的样本表示,而无需昂贵的标签或注释。这一领域的早期方法侧重于定义预训练任务,这些任务涉及在一个有大量弱监督标签的领域中的代用任务。为解决此类任务而训练的编码器有望学习到一般特征,这些特征可能对其他需要昂贵注释的下游任务(如图像分类)有用。自监督学习技术的一大类别是使用对比损失的技术,这些技术已被广泛应用于图像相似性、降维(DrLIM)和人脸验证/识别等计算机视觉应用中。

2024-05-01 21:49:13 356 1

原创 政安晨:【Keras机器学习示例演绎】(二十六)—— 图像相似性搜索的度量学习

本文目标:在 CIFAR-10 图像上使用相似度量学习的示例。度量学习旨在训练能将输入嵌入高维空间的模型,从而使训练方案所定义的 "相似 "输入彼此靠近。这些模型一经训练,就能为下游系统生成对这种相似性有用的嵌入模型,例如作为搜索的排名信号,或作为另一种监督问题的预训练嵌入模型。

2024-05-01 08:23:48 580 2

政安晨:快速学会~机器学习的Pandas数据技能(三)(重命名与合并)

政安晨:快速学会~机器学习的Pandas数据技能(三)(重命名与合并)的示例数据文件

2024-02-08

政安晨:机器学习快速入门(一){基于Python与Pandas}的示例数据包

政安晨:机器学习快速入门(一){基于Python与Pandas}的示例数据包,用于在文章:政安晨:机器学习快速入门(一){基于Python与Pandas}中给读者下载处理的示例数据

2024-02-05

哈工大《手机设计基本知识》

哈工大 系统讲述手机设计原理的知识。 偏重硬件原理,设计概要等。

2009-08-29

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除