语音、图像处理类
思君黯然
主要方向:自然语言处理,文本分类
展开
-
音视频相关参数总结
*******************视频: 1)分辨率:视频分辨率是各类显示器屏幕比例的常用设置,常见的屏幕比例其实只有三种:4:3、16:9和 16:10,再加上一个特殊的5:4。分辨率是用于度量图像内数据量多少的一个参数,通常表示成ppi(每英寸像素Pixel per inch)那个视频的320X180是指它在横向和纵向上的有效像素,窗口小时ppi值较高,看起来清晰;窗口放大时原创 2013-12-09 18:43:01 · 1289 阅读 · 0 评论 -
3. 图像处理与计算机视觉:基础,经典以及最近发展 计算机视觉中的信号处理与模式识别
从本章开始,进入本文的核心章节。一共分三章,分别讲述信号处理与模式识别,图像处理与分析以及计算机视觉。与其说是讲述,不如说是一些经典文章的罗列以及自己的简单点评。与前一个版本不同的是,这次把所有的文章按类别归了类,并且增加了很多文献。分类的时候并没有按照传统的分类方法,而是划分成了一个个小的门类,比如SIFT,Harris都作为了单独的一类,虽然它们都可以划分到特征提取里面去。这样做的目的是希望能转载 2014-09-20 00:42:01 · 1059 阅读 · 0 评论 -
2.图像处理与计算机视觉:基础,经典以及最近发展 图像处理与计算机视觉相关的书籍
1. 数学我们所说的图像处理实际上就是数字图像处理,是把真实世界中的连续三维随机信号投影到传感器的二维平面上,采样并量化后得到二维矩阵。数字图像处理就是二维矩阵的处理,而从二维图像中恢复出三维场景就是计算机视觉的主要任务之一。这里面就涉及到了图像处理所涉及到的三个重要属性:连续性,二维矩阵,随机性。所对应的数学知识是高等数学(微积分),线性代数(矩阵论),概率论和随机过程。这三门课也是考研转载 2014-09-20 00:38:48 · 734 阅读 · 0 评论 -
4.图像处理与计算机视觉:基础,经典以及最近发展 图像处理与分析
本章主要讨论图像处理与分析。虽然后面计算机视觉部分的有些内容比如特征提取等也可以归结到图像分析中来,但鉴于它们与计算机视觉的紧密联系,以及它们的出处,没有把它们纳入到图像处理与分析中来。同样,这里面也有一些也可以划归到计算机视觉中去。这都不重要,只要知道有这么个方法,能为自己所用,或者从中得到灵感,这就够了。本章的下载地址在:http://iask.sina.com.cn/u/22转载 2014-09-20 00:41:39 · 1086 阅读 · 0 评论 -
1.图像处理与计算机视觉:基础,经典以及最近发展序
1. 为什么要写这篇文章从2002年到现在,接触图像快十年了。虽然没有做出什么很出色的工作,不过在这个领域摸爬滚打了十年之后,发现自己对图像处理和计算机视觉的感情越来越深厚。下班之后看看相关的书籍和文献是一件很惬意的事情。平常的一大业余爱好就是收集一些相关的文章,尤其是经典的文章,到现在我的电脑里面已经有了几十G的文章。写这个文档的想法源于我前一段时间整理文献时的一个突发奇想,既然有这个多转载 2014-09-20 00:39:33 · 769 阅读 · 0 评论 -
滤波器设计中的频率归一化问题
信号处理工具箱中经常使用的频率是Nyquist频率,它被定义为采样频率的一半,在滤波器的结束选择和设计当中的截止频率均使用Nyquist频率进行归一化处理。例如,对于一个采样频率为1000Hz的系统,300Hz的归一化即为300/500=0.6。归一化频率的范围在[0,1]之间。如果要将归一化频率转换为角频率,则将归一化频率乘以pi;如果将归一化频率转换成Hz,则将归一化频率乘以采样频率的一半转载 2013-12-18 17:56:31 · 19598 阅读 · 4 评论 -
音频中常见的技术指标
我们就针对数字音频常见的技术指标进行介绍。1、声道数:声道数是音频传输的重要指标,现在主要有单声道和双声道之分。双声道又称为立体声,在硬件中要占两条线路,音质、音色好,但立体声数字化后所占空间比单声道多一倍。2、量化位数:量化位是对模拟音频信号的幅度轴进行数字化,它决定了模拟信号数字化以后的动态范围。由于计算机按字节运算,一般的量化位数为8位和16位。量化位越高,信号的动态范围越大转载 2013-12-16 17:24:57 · 2765 阅读 · 0 评论 -
音频指标
1.SNR(Signal to Noise Ratio,信噪比): 指在规定输入电压下的输出信号电压与输入电压切断时,输出所残留之杂音电压之比,也可看成是最大不失真声音信号强度与同时发出的噪音强度之间的比率,通常以S/N表示。一般用分贝(dB)为单位,信噪比越高表示音频产品越好,常见产品都选择60dB以上。 2.THD(Total Harmonic Dis转载 2013-12-16 17:21:46 · 3513 阅读 · 0 评论 -
Windows下实现Mencoder+FFMPEG视频转换和截图的功能
Mencoder是Mplayer自带的编码工具(Mplayer是Linux下的播放器,开源,支持几乎所有视频格式的播放,现在有windows和Mac版本)。 Mplayer的获得与配置:Mplayer windows版本下载列表:http://www5.mplayerhq.hu/MPlayer/releases/win32/ 列表中会有版本发布日期,可以挑选最新的版本,也可以选转载 2013-12-11 10:50:08 · 1702 阅读 · 0 评论 -
FFmpeg参数说明
【参数】【说明】【示例】-i "路径"指定需要转换的文件路径-i "C:\nba.wmv"-y覆盖输出文件,即如果nba.xxx文件已经存在的话,直接覆盖 控制画面参数-bitexac使用标准比特率 -vcodec xvid使用xvid压缩 -s 指定分辨率大小-s 320转载 2013-12-11 10:42:47 · 821 阅读 · 0 评论 -
5.图像处理与计算机视觉:基础,经典以及最近发展 计算机视觉
这一章是计算机视觉部分,主要侧重在底层特征提取,视频分析,跟踪,目标检测和识别方面等方面。对于自己不太熟悉的领域比如摄像机标定和立体视觉,仅仅列出上google上引用次数比较多的文献。有一些刚刚出版的文章,个人非常喜欢,也列出来了。本章的下载地址:http://iask.sina.com.cn/u/2252291285/ish?folderid=868772转载 2014-09-20 00:44:43 · 891 阅读 · 0 评论