音视频博客-专业IT技术发表平台

推荐付费专栏 VIP文章

南棱笑笑生

20240921解决使用PotPlayer在WIN10电脑播放4K分辨率10bit的视频出现偏色的问题很多Hao4K的K友下了一个杜比视界版的4K电影资源，在使用PotPlayer播放器播放时画面出现发紫/发绿的现象。一般出现这种情况则说明你的播放器不支持杜比格式的播放，我们需要更换支持的播放器才能彻底解决。播放杜比视界颜色发绿发紫，是因为播放的片源是杜比视界版本，但是你的播放设备不支持杜比视界，所以才会导致播放的电影视频画面发紫、发绿，无论是播放设备还是显示设备，都应该支持杜比视界才可正常显示。缘起：常见的问题，你下载视频的时候，4K分辨率的视频播放的时候出现偏色异常，但是1080p分辨率的正常呀！

阅读 9.1k

8赞

OpenCV计算机视觉实战（6）——经典计算机视觉算法计算机视觉是一个多学科交叉领域，目标是使机器能够理解和解释来自图像和视频的视觉信息。本节将介绍经典计算机视觉算法的关键原理、应用、优势和局限性，即使是在深度学习技术的出现之后，这些算法仍然具有重要意义，为图像分析、特征提取、分割、运动估计和目标检测奠定了基础。并在特定领域内对不同算法进行比较分析，展示经典算法在实际场景中的应用。

阅读 2.3k

49赞

【智能驱蚊黑科技】基于OpenCV的蚊子雷达追踪打击系统（附完整Python源码）本文介绍了一种基于OpenCV的智能蚊子雷达追踪打击系统，结合计算机视觉和超声波技术，有效解决夏季蚊虫困扰。系统通过摄像头实时监测蚊虫活动，利用背景减除法和轮廓分析识别蚊虫，并通过超声波进行驱赶。技术栈包括OpenCV、PyGame、Matplotlib和NumPy。系统具备智能检测、驱蚊音频和可视化界面三大功能模块，检测精度达92.7%，响应延迟小于200ms。文章详细介绍了系统的实现步骤、关键代码解析及优化技巧，并提供了源码下载链接。该系统不仅高效驱蚊，还避免了化学驱蚊剂的潜在危害，具有广泛的应用前景。

阅读 3.8k

141赞

OpenCV计算机视觉实战（8）——图像滤波详解在本节中，我们从线性滤波(均值/高斯)的原理与参数调优入手，紧接着以非线性滤波(中值/双边)为重点，探讨了它们在各自噪声模型下的卓越表现与局限，最后，通过自定义卷积核实践，介绍如何使用 cv2.filter2D 实现锐化、边缘检测等多样效果。

阅读 1.6k

42赞

m4s转mp3——B站缓存视频提取音频用potplayer直接打开m4s文件，确认音频.m4s用Notepad++打开m4s文件，删除前面的0直接改后缀为mp3即可（实测可播放）

阅读 6.9k

15赞

【AI大模型前沿】Aero-1-Audio：Qwen2.5架构加持，轻量级音频模型天花板、吊打Whisper【稳跑+低资源】随着语音助手、会议转写、实时翻译等音频处理应用的普及，市场对轻量级、高性能的音频模型的需求日益增长。传统的音频处理模型往往面临参数庞大、计算资源消耗高、难以实时处理长音频等问题。为了解决这些挑战，LMMs-Lab 团队推出了一款名为 Aero-1-Audio 的轻量级音频模型。该模型不仅在参数规模上实现了高效性，还在多个音频处理任务中表现出色，尤其是在长音频处理和语音识别方面。

阅读 2.0k

61赞

【Python实战】——Python+Opencv是实现车牌自动识别该篇文章将以实战形式演示利用Python结合Opencv实现车牌识别，全程涉及图像预处理、车牌定位、车牌分割、通过模板匹配识别结果输出。该项目对于智能交通、车辆管理等领域具有实际应用价值。通过自动识别车牌号码，可以实现车辆追踪、违章查询、停车场管理等功能，提高交通管理的效率和准确性。可用于车牌识别技术学习。

阅读 5.7w

288赞

C#与FFmpeg的旋转魔法：从零到精通视频旋转的终极指南《从C#新手到视频处理大师的“底层革命”实战指南》详细介绍了如何利用C#和FFmpeg实现视频旋转处理。文章首先指出了C#视频旋转的四大挑战：FFmpeg命令的复杂性、手机视频元数据的修复、性能优化以及跨平台兼容性。随后，提供了具体的解决方案，包括环境配置、核心代码实现、手机视频元数据修复和性能优化。通过封装FFmpeg命令、异步处理和元数据修复，开发者可以在C#中高效地实现视频旋转功能，并确保代码在Windows、Linux和Mac等平台上通用。文章还提供了详细的代码示例和注释，帮助开发者快速上手并优化性

阅读 4.3k

68赞

多巴胺与内啡肽.

OpenCV进阶操作：指纹验证、识别指纹识别作为生物识别领域的核心技术之一，凭借其唯一性、稳定性和易采集性，在安全认证、刑事侦查、智能设备解锁等领域得到广泛应用。然而，指纹图像的高噪声、低对比度以及复杂纹路结构等特点，使得特征提取与匹配成为技术难点。OpenCV作为开源计算机视觉库，虽提供了丰富的图像处理工具（如SIFT、SURF等特征检测算法），但在实际应用中仍需结合预处理和优化策略以提升识别精度。在OpenCV中，指纹验证是一种图像处理技术，用于识别和验证人类指纹。指纹是一种独特的生物特征，每个人的指纹都具有独特的纹路和图案。

阅读 3.5k

39赞

2024电赛H题参考方案（+视频演示＋核心控制代码）——自动行驶小车此次电赛的H题属于控制类题目，相较于往年较为简单，功能也算单一，四个题目的时间要求都不是很高，容易得分，其中主要难点可能是TI芯片了，但是资源丰富，那也就不是问题了。控制的难点就在与ABCD四点之间的丝滑连接，如何让小车又快又稳的运行，最后比拼的就是时间了，可能也是比赛现场的重点评判标准，毕竟选择该题的人多。

阅读 3.4w

143赞

opencv-图像处理-3-添加噪声和滤波去噪菜鸡一枚，仅记录学习过程

阅读 954

10赞

揭秘B站视频秒播技术：m4s与SourceBuffer的奥秘 B站视频播放速度快的原因在于其采用了m4s分段存储技术，通过range请求动态下载视频片段，并利用SourceBuffer进行实时播放。这种技术允许根据进度条动态加载视频片段，边播边下载，确保流畅播放。调试过程中，通过过滤206状态码和Content-Range信息，验证了视频片段的动态加载机制。此外，SourceBuffer将视频数据存储在内存中，通过MediaSource对象管理，确保高效播放，但数据不会持久化存储。最后，通过Java代码示例展示了如何从B站获取视频和音频URL并下载到本地。

阅读 1.0k

19赞

计算机视觉：少样本学习（Few-Shot Learning）在视觉中的应用计算机视觉：少样本学习（Few-Shot Learning）在视觉中的应用，人工智能，计算机视觉，大模型，AI，少样本学习（Few-Shot Learning, FSL）应运而生，其目标是利用极少量的标注样本训练模型，使模型能够对新的样本进行准确分类或预测。这一技术模拟人类从少量示例中快速学习并泛化到新情况的能力，为解决数据稀缺问题提供了有效的途径，在计算机视觉领域展现出巨大的潜力和应用价值。

阅读 2.2w

42赞

Pluto实验报告——基于FM的音频信号传输并解调恢复该实验报告是一个完整的基于FM传输音频的报告，完整阐述了实验的基本原理，有理论公式的证明和大量实验结果的验证，很好的完成了整个通信系统的原理的验证。

阅读 1.3k

26赞

抖音无水印视频在线解析工具（2025年最新教程） 2025年，短视频依然是互联网内容的主流形式，而抖音作为全球领先的短视频平台，吸引了无数创作者和用户。然而，下载抖音视频时，水印问题一直让人头疼。今天，我们将手把手教您如何使用V2OB在线工具，轻松下载高清无水印的抖音视频。

阅读 1.3w

10赞

ESP-IDF实现无损INMP441采集音频+MAX98357A播放音频今天弄了一天，直到现在的半夜，终于弄出了没有杂音的音频采集+播放demo。一定有人苦于没有参考代码而抓狂，就像今天的我，故将代码录而记之，以飨后来者。板子：esp32-wroom-32、INMP441、MAX98357A。开发环境：esp-idf v5.2。

阅读 707

9赞

weixin_51454889

计算机视觉目标检测——DETR(End-to-End Object Detection with Transformers) 本周主要学习了DETR（End-to-End Object Detection with Transformers）目标检测算法及其相关内容。DETR通过引入Transformer，将目标检测任务视为集合预测问题，首次实现了端到端的目标检测，无需NMS后处理和anchor设计（相较于YOLO），显著简化了模型训练和部署流程。论文的核心贡献包括设计了基于二分图匹配的目标函数，确保输出的独特性，并通过Transformer的encoder-decoder架构实现了高效的目标检测。

阅读 2.9k

29赞

二分掌柜的

SkyReels-V2 视频生成 flyfish

阅读 875

15赞

太赞了！阿里通义Lab提出VACE！视频创作与编辑统一模型！扩散变换器（Diffusion Transformer）在生成高质量图像和视频方面展现出了强大的能力和可扩展性。进一步追求生成和编辑任务的统一，在图像内容创作领域取得了显著进展。然而，由于对时间和空间动态一致性的内在要求，实现视频合成的统一方法仍然具有挑战性。我们推出了VACE，它使用户能够在一个集创作与编辑功能于一体的框架内执行视频任务。这些任务包括参考到视频生成、视频到视频编辑以及掩码视频到视频编辑。

阅读 1.3k

21赞

作者推荐

Jackilina_Stone: 在职算法工程师，博客之星2024Top73，研究方向为计算机视觉，系统架构设计师，软件设计师，CSDN博客专家等。订阅专栏可享答疑服务，欢迎订阅与交流！

关注

深度学习lover: 深度学习爱好者，在学习过程中搜集了一些数据集，可以提供分享

关注

Quz: 路在脚下，不在远方；路在当下，不在未来。

关注

Snu77: 在职算法工程师，本人所有改进专栏都包含完整代码和详细步骤教程，同时购买专栏的读者可入Qq群享受专栏相关问题答疑服务和完整文件，助力您成功涨点。

关注

鱼弦: 【gzh：红尘灯塔，CSDN(博客专家、内容合伙人、新星导师、全栈领域优质创作者) ,51CTO(Top红人+专家博主)，华为云·云享专家... 】

关注

LNTON羚通: 专注于视频分析技术、视频智能传输技术等

关注

ADI_OP: 专注ADI DSP开发20年

关注

目标检测数据集合: ［计算机c9硕士］

关注

li15817260414: 1958993134@qq.com。

关注

this_show_time: 程序员一枚

关注