自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

  • 博客(156)
  • 收藏
  • 关注

原创 开源音色转换,实时/零样本,支持歌声seed-vc

目前发布的模型支持零样本语音转换🔊 、零样本实时语音转换🗣️ 和零样本歌声转换🎶。无需任何训练,只需1~30秒的参考语音,即可克隆声音。支持进一步使用自定义数据进行微调,以提高特定说话人的性能,数据需求门槛极低(每位说话人至少1条语音),训练速度极快(最少100步,在T4上只需2分钟)!实时语音转换支持约300ms的算法延迟和约100ms的设备侧延迟,适用于在线会议、游戏和直播。要查看演示和与之前语音转换模型的比较,请访问的演示页面🌐 和评估结果📊。

2025-02-10 12:49:05 139

原创 阿里通义实验室发布Textoon:AI秒变2D卡通角色,语音驱动开口说话!

Textoon 是由阿里巴巴通义实验室开发的一种可以通过文本描述自动生成 2D 卡通角色的智能系统。它可以在一分钟内 生成一个可动画的 2D 角色,并且这个角色可以像 3D 动画一样动起来、眨眼、张嘴说话!核心优势🔥 比手工 Live2D 角色制作快 100 倍!🔥 比传统 AI 生成更精准、更生动!🔥 比普通 Live2D 更容易修改、更强大!🔥 支持语音驱动,让角色真正“开口说话”!🚀 Textoon = AI + Live2D + 语音动画,一站式解决 2D 角色创作!

2025-02-10 10:31:28 88

原创 【0208更新】阿里开源语音克隆CosyVoice2 整合包

阿里开源语音克隆CosyVoice2 整合包[新增prompt文字识别]

2025-02-08 12:14:08 213

原创 CosyVoice /F5-TTS /GPT-SoVITS /Fish-Speech 开源语音克隆与文本转语音(TTS)项目的对比整理

GPT-SoVITS(5秒样本) > CosyVoice(3秒样本)。:F5-TTS > CosyVoice(流式);在长文本合成中可能出现异常音调,需参数调优;:仅CosyVoice支持细粒度指令调整;生成音频可能伴随底噪,需后处理优化。并列稳定性最佳,适合商业应用;

2025-02-07 23:15:55 965

原创 OpenAI 新神器 Deep Research:让复杂研究变得简单

Deep Research 是 OpenAI 在 ChatGPT 中推出的一种新功能,它能够独立完成复杂的在线研究任务。你只需要给它一个提示,它就会在网上搜索、分析并整合数百个信息来源,最终生成一份专业的综合报告。这个过程原本需要人类花费数小时才能完成,而 Deep Research 只需要几十分钟。Deep Research 的功能和 Google 搜索引擎、DeepSeek 研究助手有点像。你只要给它个提示,它就能在网上快速搜罗、分析和整合几百个信息来源,最后给你整出一份专业级别的综合报告。

2025-02-07 08:46:23 286

原创 国内使用 DeepSeek R1 模型的多种途径

作为国内领先的 AI 服务平台,硅基流动携手华为云推出了本土化的 DeepSeek R1 服务方案,为国内用户提供稳定可靠的使用环境。火山引擎支持 V3/R1 等不同尺寸的 DeepSeek 开源模型,企业可通过在火山引擎机器学习平台 veMLP 中部署,或在火山方舟中调用模型的方式进行使用。华为云宣布支持 DeepSeek R1 模型,用户可以在华为云平台上进行模型部署和使用。腾讯云提供了 DeepSeek R1 模型的部署和使用服务,用户可以在腾讯云平台上快速部署和调用该模型。

2025-02-06 22:32:38 503

原创 腾讯 Hunyuan3D-2: 高分辨率3D 资产生成

在当今数字化时代,3D 资产生成技术正变得越来越重要。无论是游戏开发、影视制作还是虚拟现实领域,高质量的 3D 模型和纹理都是创造沉浸式体验的关键。然而,传统的 3D 资产制作往往需要大量的时间和专业技能。幸运的是,腾讯的 Hunyuan3D-2 项目为我们带来了新的希望,它通过大规模扩散模型实现了高分辨率 3D 资产的高效生成。Hunyuan3D-2 是腾讯推出的一个先进的大规模 3D 合成系统,旨在生成高分辨率的纹理化 3D 资产。

2025-01-22 10:44:00 1076

原创 DeepSeek-R1:性能对标 OpenAI,开源助力 AI 生态发展

DeepSeek-R1 的发布为 AI 领域带来了新的机遇。其强大的性能、开源的策略以及灵活的使用方式,使得开发者可以更加便捷地使用和开发基于 DeepSeek-R1 的应用。无论是个人开发者还是企业用户,都可以从 DeepSeek-R1 中受益。未来,随着技术的不断发展和社区的不断壮大,DeepSeek-R1 有望在更多领域发挥重要作用,推动 AI 技术的普及和发展。如果你对 DeepSeek-R1 感兴趣,不妨尝试使用一下它的 API 或者在官网体验一下它的功能。相信你一定会被它的强大能力所折服!

2025-01-22 10:17:28 1037

原创 AI换脸新神器:FaceFusion v3.1.1(内附整合包)

FaceFusion v3.1.1是一款整合了deepface模型的AI图片、视频换脸软件。它无需复杂的魔法操作,解压后点击启动器即可轻松启动,无论是图片还是视频换脸都能轻松搞定,而且速度飞快,换脸效果更是比Stable Diffusion等工具好用许多。

2025-01-16 17:52:33 949

原创 阿里开源语音克隆CosyVoice2详解与应用附整合包

在人工智能飞速发展的今天,语音克隆技术正逐渐走进我们的生活,它不仅能模拟人类的声音,还能根据不同需求产生个性化的语音输出。阿里巴巴集团推出的CosyVoice2,作为语音克隆领域的先进代表,凭借其卓越的性能和广泛的应用前景,引起了广泛关注。本文将深入探讨CosyVoice2的技术特点、应用场景以及如何在实际中部署使用,带你一探究竟。

2025-01-16 17:04:42 1702

原创 开源AI写小说-RWKV-Runner:基于RWKV模型的多功能AI助手

RWKV-Runner是一个开源项目,由josStorer开发并托管在GitHub上。它基于RWKV模型,提供了丰富的功能和便捷的操作方式,旨在为用户提供一个简单易用且功能强大的AI助手。RWKV-Runner作为一个基于RWKV模型的多功能AI助手,凭借其丰富的功能、灵活的部署方式和良好的用户体验,为用户提供了极大的便利。无论是日常聊天、写作辅助还是音乐创作,它都能满足用户的需求。如果你对AI助手感兴趣,不妨尝试一下RWKV-Runner,相信它会给你带来意想不到的惊喜。

2025-01-09 21:39:29 799 2

原创 #Phi-4:微软 14B 参数开源模型,性能匹敌 OpenAI GPT-4o-mini,现已登陆 Ollama

Phi-4 作为微软推出的最新小型语言模型,在仅有 140 亿参数的情况下,通过创新的训练方法和高质量的数据,展现出了媲美甚至超越一些更大规模模型的性能。它在数学推理、编程任务、长文本处理等多个领域都表现出色,为人工智能技术的发展提供了新的思路和可能性。Phi-4 的成功也证明了在模型设计中,数据质量的重要性不亚于模型规模。

2025-01-09 11:51:33 1676

原创 开源工具tdl 导出 Telegram 聊天记录比官方的更快更好用

tdl 是一款非常实用的 Telegram Downloader,能够帮助我们轻松导出 Telegram 聊天记录。

2025-01-08 21:16:17 921

原创 开源免费GitHub搭建资源分享站

一个可使用GitHub Pages部署基于 HTML、CSS 和 JavaScript 开发的资源列表展示系统

2025-01-08 10:54:53 1281

原创 Sonic:开源Go语言开发的高性能博客平台

Sonic,一个以其速度如声速般快速而命名的博客平台,是一个用Go语言开发的高性能博客系统。正如其名字所暗示的,Sonic旨在提供一个简单而强大的博客解决方案。这个项目受到了Halo项目团队的启发,前端部分是基于Halo项目的分支。

2025-01-01 19:14:28 1026

原创 LANDrop:跨平台的开源免费局域网文件传输工具

所有必要的个人数据都完全且仅存储在用户的设备上。此外,LANDrop还会收集匿名的分析和使用数据,以改善应用的性能和功能,但不会包含任何个人数据。今天,我们将介绍一款名为LANDrop的跨平台文件传输工具,它不仅开源免费,而且支持iOS、Android、macOS、Windows和Linux等多个平台。LANDrop以其开源、免费、跨平台和高安全性的特点,成为了局域网文件传输的理想选择。LANDrop使用先进的协议,提供接近线速的传输速度,并采用军用级别的加密和认证,确保传输的安全性。

2024-12-31 21:56:04 462

原创 AI驱动的PDF翻译保留排版格式-PDFMathTranslate

PDFMathTranslate以其强大的功能和用户友好的设计,为跨语言PDF文档处理提供了一个全新的解决方案。随着AI技术的不断进步,我们可以预见,PDFMathTranslate将在未来的文档翻译领域扮演更加重要的角色。今天,我要介绍一款革命性的工具——PDFMathTranslate,它不仅能够实现PDF文档的全文双语翻译,还能完整保留原文的排版和格式。让我们来看一个实际案例。PDFMathTranslate背后的技术基于最新的机器学习算法,能够理解复杂的文档结构,并进行精准翻译。

2024-12-31 17:35:22 1069

原创 开源电子书转有声书整合包ebook2audiobookV2.0.0

ebook2audiobook 是一个开源项目,它能够将电子书(eBooks)转换成包含章节和元数据的有声书(audiobooks)。该项目采用了动态人工智能模型和声音克隆技术,支持超过1124种语言,使用户能够根据自己的需求生成个性化的有声书。提升质量:用户可以使用自定义模型来进一步提升有声书的质量。

2024-12-30 21:13:06 979 2

原创 腾讯ima升级:知识库共享与小程序上线,打造团队协作新工具

在数字化时代,团队协作和知识共享变得越来越重要。腾讯旗下的AI智能工作台ima.copilot(简称ima)最近升级,引入了「共享知识库」功能,并推出了“ima知识库”小程序。这一升级不仅提升了个人效率,也为团队协作提供了新的可能性。

2024-12-30 17:15:58 302

原创 为何DeepSeek V3模型为自己是ChatGPT?

在人工智能领域,最新的技术进展总是令人兴奋。最近,一家资金雄厚的中国AI实验室DeepSeek发布了一款新的AI模型——DeepSeek V3,它在多个流行基准测试中超越了许多竞争对手。这款模型不仅体积庞大,而且效率惊人,能够轻松处理编码和写作等基于文本的任务。但有趣的是,DeepSeek V3似乎认为自己是ChatGPT,OpenAI的AI驱动聊天机器人平台。本文将探讨这一现象背后的原因。

2024-12-30 17:06:15 12628 2

原创 最全Linux 常用命令整理20241229

这篇文章整理了Linux常用的命令,涵盖了文件操作、系统信息查看、软件包管理等多个方面,希望对您有所帮助。(Debian, Ubuntu 以及类似系统)(Fedora, Redhat及类似系统)(Fedora, RedHat及类似系统)(以太网和WIFI无线)

2024-12-29 16:36:12 150

原创 DeepSeek-V3:新一代AI模型的突破与开源

DeepSeek-V3的发布不仅是技术的一次飞跃,更是开源精神的体现。它不仅在性能上与世界顶尖的闭源模型媲美,更以开源的方式,推动了人工智能技术的普惠发展。我们期待DeepSeek-V3在未来能够带来更多的创新和突破,为AI领域的发展贡献力量。

2024-12-27 10:59:30 1244

原创 DeepSeek-V3 与 DeepSeek-V3-Base:两大模型对比解析

近年来,随着人工智能技术的飞速发展,大型语言模型(LLM)在自然语言处理、代码生成、数学推理等领域的应用越来越广泛。:在 MMLU、DROP、LiveCodeBench 等基准测试中表现优异,尤其在数学推理和代码生成任务中超越了许多开源和闭源模型。:开源 FP8 权重,支持 SGLang、LMDeploy、TensorRT-LLM 等工具,用户可在不同硬件平台上高效运行。:主要针对编程任务,尤其是在多语言编程测评中表现突出,适合开发者用于代码生成和优化。

2024-12-27 10:55:58 11493

原创 PyInstaller详细打包教程 - 从入门到进阶

PyInstaller是一个功能强大的打包工具,通过正确的配置和使用,可以轻松将Python应用打包成独立可执行文件。仔细规划项目结构合理处理资源文件注意平台兼容性做好测试验证。

2024-12-26 15:06:20 580

原创 使用Nuitka打包Python应用程序完整教程

Nuitka是一个Python的替代编译器,它可以将Python代码编译成独立的可执行程序。更快的执行速度更小的文件体积更好的兼容性支持所有Python特性Nuitka是一个强大的Python打包工具,通过正确配置可以轻松将Python应用打包成独立可执行文件。本文介绍的命令和参数可以满足大多数打包需求,如遇到特殊情况可以查看Nuitka的官方文档获取更多信息。Nuitka官方GitHub仓库: https://github.com/Nuitka/Nuitka。

2024-12-26 15:00:07 442

原创 Ollama-OCR:利用视觉语言模型从图像中提取文本

Ollama-OCR利用视觉语言模型从图像中提取文本。本文将介绍 Ollama-OCR 的关键特点、安装方法、快速开始指南以及输出格式的详细信息。需安装:ollama https://ollama.com/download。

2024-12-23 21:41:03 746 1

原创 开源数字人直播DH_live web整合包免训练使用教程

七木数字人web交互系统主要实现:免训练数字人视频制作和实时语音数字人可搭配一些直播场控软件的语音 驱动数字人进行直播「数字人(可直播用+数字人视频制作)」链接:https://pan.quark.cn/s/2e06a0249917。

2024-12-23 15:30:30 1392

原创 开源6.5K InStock股票系统win整合包:量化投资的利器

InStock股票系统是一个功能全面的量化投资工具,它能够抓取每日股票、ETF的关键数据,计算股票指标,识别K线形态,综合选股,并支持选股策略和股票验证回测。该系统支持自动交易,并适配PC、平板和手机等多种设备。

2024-12-18 11:19:25 678

原创 Python实现微信内录播放语音发送工具

本文将介绍一个基于Python的解决方案,通过声卡内录配合无线反控手机实现自动化语音发送功能。开源scrcpy手机无线投屏脚本反控手机本工具通过Python实现了一个实用的微信语音发送控制系统,结合硬件设备可以实现自动化的语音消息发送功能。该系统具有界面直观、操作简单、功能实用等特点,适合需要进行语音消息自动化处理的场景。

2024-12-14 23:34:28 704

原创 开源手机无线投屏PC脚本反控手机scrcpy

解压后运行start_wifiConnect.bat。通过usb开启手机端口后 可用无线投屏反控手机。如需反控手机,需开启USB调试(安全模式)

2024-12-14 22:17:09 586

原创 谷歌推出 AI 编码助手 “Jules”,自动修复软件漏洞加速开发

谷歌最近推出了名为“Jules”的AI编码助手,旨在自动修复软件漏洞并加速开发流程。这款工具基于最新的Gemini 2.0平台开发,能够与GitHub工作流系统无缝集成,分析复杂的代码库,并在多个文件中同时实施修复。Jules的主要功能包括在开发者休息时自主修复软件错误并准备代码更改,无需持续的人工监督即可生成详细的拉取请求。它不仅提供修复建议,而是作为一个自主代理在GitHub生态系统内运作,可以分析代码库、制定全面的修复计划,并在多个文件中执行修复任务。

2024-12-13 08:36:32 1186

原创 Coconut:探索大语言模型的连续思维链推理能力

你有没有想过,计算机是如何像人类一样思考问题的?最近,科学家们发明了一种名为Coconut的新方法,帮助计算机在“思维空间”中解决问题,而不仅仅是在文字里打转。这种方法让计算机能够更好地规划和决策,就像我们在做数学题或逻辑题时一样。接下来,让我们一起来看看Coconut是如何工作的,以及它为什么如此特别。Coconut是一种新的大语言模型推理框架,它允许计算机在没有文字的情况下进行思考。

2024-12-13 08:32:03 665

原创 【1211更新】腾讯混元Hunyuan3D-1文/图生3D模型云端镜像一键运行

腾讯混元 3D 生成模型,支持文本和图像条件生成(对于文生3D,生成)为了解决现有的3D生成模型在生成速度和泛化能力上存在不足,我们开源了混元3D-1.0模型,可以帮助3D创作者和艺术家自动化生产3D资产。我们的模型采用两阶段生成方法,在保证质量和可控的基础上,即可完成单图生成3D,标准版则大约需要25s。在第一阶段,我们采用了一种多视角扩散模型,轻量版模型能够在大约4秒内高效生成多视角图像,这些多视角图像从不同的视角捕捉了3D资产的丰富的纹理和几何先验,将任务从单视角重建松弛到多视角重建。

2024-12-12 18:29:28 1453

原创 精选的人工智能顶级工具列表Awesome AI Tools

精选的人工智能顶级工具列表。

2024-12-07 12:44:04 1062

原创 国内 AI 工具汇总20241207

覆盖代码生成、研发知识问答、单元测试用例生成、代码解释、代码注释、代码翻译、代码调试、代码检查等八大研发场景。:团队协作共享、企业知识库、AI 文档分析、AI 营销文案、AI 文书写作等智能工具。:智能纠错、文本补全、文本改写、文本扩写、词语推荐、句子推荐与生成等功能。:找资料、查信息、搜答案、搜文件等,对海量搜索结果进行 AI 智能聚合。:作业帮旗下:全文生成、PPT 生成、问答助手、写作助手。:一站式 AI 开发平台,模型训练、推理、评测、精调等。

2024-12-07 11:38:59 794

原创 如何利用Android手机指纹解锁你的Windows PC

在快节奏的工作环境中,我们总是希望在保证安全的同时尽可能提高效率。Windows Hello提供了多种登录选项,包括密码、PIN码、指纹和面部识别,但如果你使用的是一台没有内置指纹传感器或IR摄像头的笔记本电脑,那么解锁可能会变得有些麻烦。今天,我将分享一个小技巧,让你可以使用Android手机的指纹传感器来解锁你的Windows PC。

2024-12-07 11:00:51 1094

原创 Meta Llama 3.3 70B:性能卓越且成本效益的新选择

在人工智能领域,大型语言模型一直是研究和应用的热点。Meta公司最近发布了其最新的Llama系列模型——Llama 3.3 70B,这是一个具有70亿参数的生成式AI模型,它在性能上与4050亿参数的Llama 3.1相媲美,但成本更低。

2024-12-07 10:47:15 517

原创 Fish Speech 更新1.5: 世界第一开源 TTS 模型(附win整合包)

Fish Speech V1.5 是一种领先的文本转语音 (TTS) 模型,基于超过 100 万小时的多种语言音频数据进行训练。项目地址:https://github.com/fishaudio/fish-speech。

2024-12-06 19:38:06 1743 6

原创 阿里发布 EchoMimicV2 :从数字脸扩展到数字人 可以通过图片+音频生成半身动画视频

EchoMimicV2 是由阿里蚂蚁集团推出的开源数字人项目,旨在生成高质量的数字人半身动画视频。:EchoMimicV2 能够使用音频剪辑驱动人物的面部表情和身体动作,实现音频与动画的同步。:项目从仅生成头部动画扩展到生成包括上半身的动画。:EchoMimicV2 减少了动画生成过程中所需的复杂条件,让动画制作更为简便。:基于手部姿势序列与音频的结合,生成自然且同步的手势和面部表情。:支持中文和英文驱动,根据语言内容生成相应的动画。:包括姿势采样和音频扩散,增强细节表现力并减少条件冗余。

2024-11-26 16:56:38 1885

原创 Windows系统下安装Triton 3.0.0预编译Triton 2.1.0

Triton是一个用于编写高效自定义深度学习原语的语言和编译器。它旨在提供一个开源环境,使得编写代码的速度比CUDA更快,同时比其他现有的DSLs(领域特定语言)更灵活。

2024-11-26 16:14:07 737

视频抽帧工具+视频去重python+ffmpeg

这是一个简单易用的视频抽帧工具,支持: 灵活设置抽帧间隔 GPU 加速处理 支持多种视频格式 实时处理进度显示

2024-12-27

Kolors随机生成提示词工作流

Kolors随机生成提示词工作流

2024-08-01

PanTools-v1.0.19多网盘批量转存分享(内附2600+短剧夸克转存模版.zip

知网内附2600+短剧夸克转存模版

2024-04-04

多网盘批量转存分享工具[PanTools V1.0.19]

内附2600+短剧可以用来测试

2024-04-04

短剧夸克网盘批量转存工具开源

网盘批量转存工具夸克转存工具QuarkPanTool_v0.0.1 内附2000+短剧测试

2024-03-31

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除