![](https://img-blog.csdnimg.cn/5372ffb1d8ca4b63a632ff4dd1fcf19a.jpeg?x-oss-process=image/resize,m_fixed,h_224,w_224)
AIGC
文章平均质量分 95
分享AIGC领域的技术、模型等
智慧医疗探索者
浙江大学研究生,专注于后端技术架构和人工智能算法的研究,具有多年大厂工作经验。
展开
-
AIGC:语音克隆模型Bert-VITS2-2.3部署与实战
本文提出VITS2,一种单阶段的文本到语音模型,通过改进之前工作的几个方面,有效地合成了更自然的语音。本文提出了改进的结构和训练机制,所提出的方法在提高多说话人模型中语音特征的自然度、相似性以及训练和推理效率方面是有效的。证明了所提出方法可以显著减少以前工作中对音素转换的强依赖,允许完全端到端单阶段方法。原创 2024-03-05 19:59:36 · 3117 阅读 · 4 评论 -
Reading Notes:Human-Computer Interaction System: A Survey of Talking-Head Generation
由于人工智能的快速发展,虚拟人被广泛应用于各种行业,包括个人辅助、智能客户服务和在线教育。拟人化的数字人可以快速与人接触,并在人机交互中增强用户体验。因此,我们设计了人机交互系统框架,包括语音识别、文本到语音、对话系统和虚拟人生成。接下来,我们通过虚拟人深度生成框架对Talking-Head Generation视频生成模型进行了分类。同时,我们系统地回顾了过去五年来在有声头部视频生成方面的技术进步和趋势,强调了关键工作并总结了数据集。对于有关于Talking-Head Generation的方法,这是一原创 2024-01-26 16:12:27 · 1402 阅读 · 0 评论 -
使用自有数据集微调ChatGLM2-6B
P-Tuning v2的原理是通过对已训练好的大型语言模型进行参数剪枝,得到一个更加小巧、效率更高的轻量级模型。具体地,P-Tuning v2首先使用一种自适应的剪枝策略,对大型语言模型中的参数进行裁剪,去除其中不必要的冗余参数。然后,对于被剪枝的参数,P-Tuning v2使用了一种特殊的压缩方法,能够更加有效地压缩参数大小,并显著减少模型微调的总参数量。原创 2024-01-25 20:15:32 · 3259 阅读 · 1 评论 -
基于 P-Tuning的高效微调ChatGLM2-6B
P-tuning v2在不同的模型规模(从300M到100B的参数)和各种困难的NLU任务(如问答和序列标注)上的表现与微调相匹配。与微调相比,P-tuning v2每个任务的可训练参数为0.1%到3%,这大大降低了训练时间的内存消耗和每个任务的存储成本原创 2024-01-04 14:56:01 · 1399 阅读 · 0 评论 -
大模型LLM的微调技术:LoRA
LoRA出自2021年的论文“LoRA: Low-Rank Adaptation of Large Language Models” LoRA技术冻结预训练模型的权重,并在每个Transformer块中注入可训练层(称为秩分解矩阵),即在模型的Linear层的旁边增加一个“旁支”A和B。其中,A将数据从d维降到r维,这个r是LoRA的秩,是一个重要的超参数;B将数据从r维升到d维,B部分的参数初始为0。模型训练结束后,需要将A+B部分的参数与原大模型的参数合并在一起使用。原创 2023-12-30 23:28:54 · 2219 阅读 · 0 评论 -
AIGC:大语言模型LLM的幻觉问题
虽然大语言模型(LLMs)在各种下游任务中展示出了卓越的能力,在多个领域有广泛应用,但存在着幻觉的问题:即生成与用户输入不符、与先前生成的内容矛盾或与已知世界知识不符的内容。这种现象对LLMs在现实世界场景中的可靠性构成了重大挑战。在准确率要求非常高的场景下幻觉是不可接受的,比如医疗领域、金融领域等。原创 2023-12-24 23:10:40 · 1797 阅读 · 0 评论 -
AIGC:阿里开源大模型通义千问部署与实战
通义千问-7B(Qwen-7B)是阿里云研发的通义千问大模型系列的70亿参数规模的模型。Qwen-7B是基于Transformer的大语言模型, 在超大规模的预训练数据上进行训练得到。预训练数据类型多样,覆盖广泛,包括大量网络文本、专业书籍、代码等。原创 2023-12-20 20:28:05 · 12633 阅读 · 7 评论 -
CLiB中文大模型能力评测榜单
目前已囊括48个大模型,覆盖chatgpt、gpt4、谷歌bard、百度文心一言、阿里通义千问、讯飞星火、360智脑、商汤senseChat、微软new-bing、minimax、tigerbot等商用模型, 以及百川、belle、chatglm6b、ziya、guanaco、Phoenix、linly、MOSS、AquilaChat、vicuna、wizardLM、书生internLM、llama2-chat等开源大模型。原创 2023-12-08 18:06:02 · 1620 阅读 · 0 评论 -
AIGC:使用变分自编码器VAE实现MINIST手写数字生成
变分自编码器(VAE)是一种强大的生成模型,可用于生成图像、文本和音频等各种数据类型。本文介绍了VAE的原理,并提供了一个使用PyTorch的示例来生成手写数字图像。原创 2023-12-06 19:51:05 · 2878 阅读 · 2 评论 -
分享全球顶尖的AIGC文生图资源
人工智能正在改变许多行业的格局,而其中改变最直观和影响最大的就是AIGC领域的图像创作。文生图技术作为AIGC的一个重要分支,展现了人工智能在视觉创作领域的巨大潜力。发展至今已经有很多AI文生图平台,这是一次革命性的突破,也就是说通过这些AI工具可以在几秒钟内将文字转换成更具可视化表示的图片。原创 2023-12-04 22:24:02 · 1680 阅读 · 0 评论 -
AIGC:使用bert_vits2实现栩栩如生的个性化语音克隆
本文提出VITS2,一种单阶段的文本到语音模型,可以有效地合成更自然的语音。通过在时长预测器中引入对抗学习,提高了训练推理效率和自然度。将transformer块添加到规范化流中,以捕获在转换分布时的长期依赖关系。通过在对齐搜索中引入高斯噪声,提高了合成质量。对音素转换的依赖显著减少,这对实现完全端到端单阶段语音合成构成了挑战。测试结果也表明,整体可懂度得到了提升。通过实验、质量评估和计算速度测量,验证了所提方法的有效性。原创 2023-11-10 16:37:55 · 6906 阅读 · 44 评论 -
AIGC:使用生成对抗网络GAN实现MINST手写数字图像生成
生成模型是深度学习领域难度较大且较为重要的一类模型。生成对抗网络能够在半监督或者无监督的应用场景下进行生成任务的学习。目前而言,生成对抗网络在计算机视觉、自然语言处理等领域取得了令人惊叹的成果。生成对抗模型是近年来复杂数据分布上无监督学习最具前景的方法之一。原创 2023-11-09 17:16:31 · 2364 阅读 · 2 评论 -
openai多模态大模型:clip详解及实战
零次学习(Zero-Shot Learning,简称ZSL)假设斑马是未见过的类别,但根据描述外形和马相似、有类似老虎的条纹、具有熊猫相似的颜色,通过这些描述推理出斑马的具体形态,从而能对斑马进行辨认。零次学习就是希望能够模仿人类的这个推理过程,使得计算机具有识别新事物的能力,如下图所示。如今深度学习非常火热,使得纯监督学习在很多任务上都达到了让人惊叹的结果,但其限制是:往往需要足够多的样本才能训练出足够好的模型,并且利用猫狗训练出来的分类器,就只能对猫狗进行分类,其他的物种它都无法识别。原创 2023-08-20 02:35:40 · 41175 阅读 · 17 评论 -
计算机视觉:替换万物Inpaint Anything
通过一键点击标记选定对象,即可实现移除指定对象、填补指定对象、替换一切场景,涵盖了包括目标移除、目标填充、背景替换等在内的多种典型图像修补应用场景。现代图像修复系统在掩膜选择和填充孔洞方面经常遇到困难。基于Segment-Anything模型(SAM),作者首次尝试了无需掩膜的图像修复,并提出了一种名为"Inpaint Anything(IA)"的新范式,即"点击和填充"。IA的核心思想是结合不同模型的优势,构建一个非常强大且用户友好的流程来解决修复相关的问题。原创 2023-08-04 20:13:07 · 4167 阅读 · 2 评论 -
AIGC大模型ChatGLM2-6B:国产版chatgpt本地部署及体验
ChatGLM是清华技术成果转化的公司智谱AI研发的支持中英双语的对话机器人。ChatGLM基于GLM130B千亿基础模型训练,它具备多领域知识、代码能力、常识推理及运用能力;支持与用户通过自然语言对话进行交互,处理多种自然语言任务。比如:对话聊天、智能问答、创作文章、创作剧本、事件抽取、生成代码等等基于ChatGLM初代模型的开发经验,全面升级了ChatGLM2-6B的基座模型。ChatGLM2-6B使用了GLM的混合目标函数,经过了1.4T中英标识符的预训练与人类偏好对齐训练。原创 2023-08-04 00:07:09 · 3271 阅读 · 0 评论 -
AIGC文生图:使用ControlNet 控制 Stable Diffusion
ControlNet是一个非常强大的神经网络结构,通过添加额外的条件来控制扩散模型。目前还不支持Multi-ControlNet,开源社区有消息说正在积极开发中。这个新功能提供了可以使用多个控制网络,并将他们的输出一起用于图像生成,允许更好地控制整个图像。原创 2023-07-14 18:34:30 · 2167 阅读 · 0 评论 -
AIGC文生图:stable-diffusion-webui部署及使用
Stable Diffusion 是一个画像生成 AI,能够模拟和重建几乎任何可以以视觉形式想象的概念,而无需文本提示输入之外的任何指导原创 2023-07-12 13:02:01 · 4148 阅读 · 2 评论 -
AIGC:文生图模型Stable Diffusion
Stable Diffusion 是由CompVis、Stability AI和LAION共同开发的一个文本转图像模型,它通过LAION-5B子集大量的 512x512 图文模型进行训练,我们只要简单的输入一段文本,Stable Diffusion 就可以迅速将其转换为图像,同样我们也可以置入图片或视频,配合文本对其进行处理。原创 2023-07-06 13:35:14 · 9951 阅读 · 14 评论