🔊 PixelPlayer:MIT研究团队的创新
- 自动识别并分离视频中的声音源,匹配画面位置。
- 为音视频编辑提供强大工具:独立调整音量、去除或增强特定声音源。
- 核心功能:声音源分离、声音定位、多声音源处理。
🔗 http://sound-of-pixels.csail.mit.edu
🔗 https://arxiv.org/abs/1804.03160
🔗 https://blink.csdn.net/details/1646606
👗 OOTDiffusion:高度可控的虚拟服装试穿工具
- 高质量服装图像生成与融合,支持半身和全身模型。
- 可控试穿参数,自然融合与逼真效果。
- 开源项目,支持在线测试。
🔗 https://github.com/levihsu/OOTDiffusion
🔗 https://ootd.ibot.cn
🔗 https://blink.csdn.net/details/1646528
💬 利用Groq实现实时AI对话
- 结合Llama-70B模型与Whisper模型,实现几乎零延迟性能。
- 展望:GPT 4或GPT 5可能实现的秒级写作和AI实时通话。
🔗 http://groq.com
🔗 https://blink.csdn.net/details/1646608
🕵️ 魔幻!出现真人视频冒充Sora,威尔·史密斯澄清吃面视频是真的
- 视频生成领域混乱:真实视频竟然冒充AI视频。
- 威尔·史密斯澄清:吃面视频是自己亲自录制,演了一把人工智能生成的自己。
- Sora测试遥遥无期,不少网友纷纷用真实视频冒充Sora生成的视频。
⚙️ 本地LLM运行工具Ollama Windows 预览版推出
- Ollama是一款开源的大型语言模型工具。
- 支持多种模型和类似于OpenAI的API接口。
- 支持用户自定义和创建模型,提供强大功能。
- 下载地址:https://top.aibase.com/tool/ollama-windows-preview
速度快一倍!Stable Diffusion WebUI Forge 性能强大
- Forge实现推断速度提升,比Web UI速度快一倍。
- Forge支持更大规模扩散与批处理,显卡较差也能带得动。
- 不同GPU环境下均有性能提升。
- 安装地址:https://top.aibase.com/tool/stable-diffusion-webui-forge