语音视频技术
文章平均质量分 61
程序猿老高
13 年IT职场生涯,我的经历+你的问题,周一、周三和周五每晚19:00~21:00 抖音约你来扯淡:聊聊工作、谈谈人生、扯扯大学...
业务范畴:论文辅导、面试指导、专业选择、职业规划、院校授课、软件开发、电脑升级(郑州可上门)、系统安装(郑州可上门)
VX:ghj8896686
展开
-
3个开源TTS(四)eSpeak1.06的源码调试环境vim+vimgdb
3个开源TTS选择eSpeak分析完吧,至少它也是支持中文了吧。本着简单起见,选择eSpeak版本的1.06开始看源码;要分析总是免不了要调试,没有太多经验,选择vim+vimgdb。下面详细介绍调试环境及基本运行流程。 (1)eSpeak1.06概况 这个版本不支持Windows环境,那就别提DLL之类的了。比起最初最早的1.05至少给了Makefile和已经编译出的speak转载 2014-03-31 09:56:43 · 4276 阅读 · 0 评论 -
MEncoder的基础用法—6.10. 保持视频画面比例
6.10. 保持视频画面比例DVD及SVCD(例如MPEG-1/2)文件包含画面比例,此信息可用来指示播放器应如何显示视频流,所以显示的人不会有个鸡蛋头(例如480x480 + 4:3 = 640x480)。然而当编码为AVI(DivX) 文件时,你要小心AVI头信息里没有包含这些值。重新设置这些比例是非常讨厌并且很花时间,应该有更好的方法!还有MPEG-4有个独特的特转载 2014-02-10 14:14:26 · 3711 阅读 · 0 评论 -
MEncoder的基础用法——6.9. 将DVD子标题提取到VOBsub文件
6.9. 将DVD子标题提取到VOBsub文件MEncoder能将DVD子标题提取到VOBsub格式的文件中。它们是一对由.idx及.sub结尾的文件组成。并且经常被压缩成一个.rar文件。MPlayer可通过 -vobsub及-vobsubid选项播放这些文件。你可以通过-vobsubout指定输出文件的基础名(例如不包括 .idx或.sub后缀),对于生成文件子标题转载 2014-02-10 14:12:30 · 3816 阅读 · 0 评论 -
MEncoder的基础用法—6.7. 媒体流复制
6.7. 媒体流复制MEncoder能以两种方式处理输入媒体流: 编码或复制。本节是关于复制的。视频流 (选项-ovc copy): 一系列工作可以完成的很好 :) 好像把FLI或VIVO或MPEG-1视频放入(不是转换)到 一个AVI文件中!当然,只有MPlayer能播放这样的文 件:)并且也许它并没有生活上的实际价值。实际意义上:当只有音频流要被编码( 例如转载 2014-02-10 14:08:40 · 3921 阅读 · 0 评论 -
MEncoder的基础用法—6.8. 从多个输入图像文件进行编码(JPEG, PNG, TGA等)
6.8. 从多个输入图像文件进行编码(JPEG, PNG, TGA等)MEncoder可以通过一个或多个JPEG, PNG, TGA, 或其他图片文件制作电影。使用简单的桢复制,它能生成MJPEG (移动JPEG), MPNG (移动PNG)或MTGA (移动TGA) 文件。进程描述:MEncoder使用libjpeg (当解码PNG时,它将使用libpng转载 2014-02-10 14:09:28 · 3765 阅读 · 0 评论 -
MEncoder的基础用法—6.2. 选择输入文件或设备
6.2. 选择输入文件或设备MEncoder可以从文件或直接从DVD或VCD的盘片进行编码。秩序在命令行中包含文件名以便从文件进行编码,或dvd://标题数或vcd://轨道数以便从DVD标题或VCD轨道进行编码。如果你已经把DVD复制到你的硬盘上(你可以使用像dvdbackup 这样的工具,大多数系统上都有),然后想从副本进行编码,你仍需使用dvd://语法,加上附带转载 2014-02-10 14:03:56 · 3445 阅读 · 0 评论 -
3个开源TTS(一)—安装使用
项目在身,要求分析几款开源的TTS引擎(不需要是中文的),然后选择一个为系统朗读英文文本提供接口。先从eGuideDog的余音(Ekho)开始,Ekho(余音)是一个把文字转换成声音的软件。它目前支持粤语、普通话(国语)、诏安客语和韩语(试验中),英文则通过Festival间接实现。先是找到了它的英文实现方式,不过之前看到过这样一篇文章《7个开源的TTS(文本转语音)系统推荐》,因此从中选择了3个原创 2014-03-31 09:45:11 · 10925 阅读 · 0 评论 -
MEncoder的基础用法—6.5. 编码为MPEG格式
6.5. 编码为MPEG格式MEncoder可生成MPEG (MPEG-节目流)格式的文件。通常,当你使用MPEG-1或MPEG-2视频,是因为你的编码受限于SVCD, VCD, 或DVD。这些格式所需的特别要求将在VCD及DVD生成指南 中进行解释 section. 要改变MEncoder的输出文件格式,使用 -of mpeg选项。例如: mencod转载 2014-02-10 14:07:20 · 3758 阅读 · 0 评论 -
MEncoder的基础用法—6.4. 编码为Sony PSP视频格式
6.4. 编码为Sony PSP视频格式MEncoder支持到Sony PSP的视频格式转换,但是依赖于 PSP软件修改,对不同软件限制也许会有不同。如果你遵守如下守则,你将不会遇到什么问题:比特律:不应超过每秒1500kb,然而过去的版本 几乎支持任何比特律只要头文件声明其不是太高。维数:PSP视频的长宽应是16的倍数,并且长*宽的 积应<= 64转载 2014-02-10 14:06:19 · 3818 阅读 · 0 评论 -
MEncoder的基础用法—6.3. 编码为双通道MPEG-4 ("DivX")
6.3. 编码为双通道MPEG-4 ("DivX")之所以这样命名,是因为这种编码两次对文件进行编码。第一次编码(配音通道)生成一些几兆大的临时文件(*.log),先不要删除它们(你可以删除AVI或者通过重定向到/dev/null 而不生成视频)。第二次编码时,生成了双通道输出文件,使用的即是从临时文件提供的比特律数据。生成文件会有更好的图像质量。如果这是你第一次听说,你可以在互联转载 2014-02-10 14:05:20 · 3811 阅读 · 0 评论 -
7个开源的TTS(文本转语音)系统
TTS(Text To Speech,文本转语音)是语音合成应用的一种,它将储存于电脑中的文件,如帮助文件或者网页,转换成自然语音输出。TTS可以帮助有视觉障碍的人阅读计算机上的信息,或者只是简单的用来增加文本文档的可读性。TTS经常与声音识别程序一起使用。 本文主要介绍7款开源的TTS系统,你可以用来学习,也可以在你的项目中使用。 1.MARY - Te原创 2014-03-31 09:29:58 · 10246 阅读 · 1 评论 -
MEncoder的基础用法—6.6. 改变电影大小
6.6. 改变电影大小经常出现要改变电影图片大小的需求。原因可能是多样的:减小文件大小,网络带宽等等。大多数人甚至在将DVD或SVCD转换成DivX AVI时也改变影片大小。如果你想改变影片大小,阅读保持长宽比一节变换过程由scale视频滤镜处理: -vf scale=宽:高。输出质量可由-sws选项调节。如果没有设置,MEncoder将使用2:双三次。用法:转载 2014-02-10 14:08:01 · 3543 阅读 · 0 评论 -
3个开源TTS(二)eSpeak的简要分析使用
继续开源TTS分析,只能说是给刚起步的人一点帮助了,毕竟不是专业做这一块的。今天主要先简单介绍TTS过程,然后以eSpeak的动态库编译使用,获得wav文件结束。 前文介绍eSpeak是c语言写的一个小型的、开放源码的语音合成系统,支持多种语言,这里包括汉语,甚至是粤语,可以看看他的博客和演讲【1】。在eSpeak的介绍里特别强调了采用“formant synthesis”(共振峰)合成原创 2014-03-31 09:49:01 · 11214 阅读 · 1 评论 -
3个开源TTS(三)flite的简要分析与espeak的选择
这篇主要介绍下flite和在windows下的cygwin中编译,以及选择espeak的原因。 从flite的介绍中可以看到,它是festival-lite,即festival的精简版,相对于Festival结构过冗余,速度太慢,它是一款短小精悍,快速实时的TTS引擎。Flite设计中兼容Festival的voiees和models,Flite使用HRGS(heterogeneous r原创 2014-03-31 09:52:39 · 6886 阅读 · 0 评论 -
Mencoder常用视频转换参数
mencoder -ofps 15 -vf-add scale=176:144 -vf-add expand=176:144:-1:-1:1 -srate 44100 -ovc xvid -xvidencopts bitrate=500:max_bframes=0:quant_type=h263:me_quality=0 -oac lavc -lavcopts acodec=mp2:abitrat原创 2014-02-11 10:04:08 · 4966 阅读 · 0 评论 -
3个开源TTS(五)eSpeak1.06的源码调试分析
这一篇介绍eSpeak1.06源码的编译调试及基本框架。 上篇详细说明了eSpeak的调试环境的搭建,调试则和一般的gdb调试命令行调试区别不大,只不过是有了vim的代码界面和vimgdb提供的gdb命令的快捷键。为了调试肯定要有已经编译好的speak可执行文件,当然前面已经说过增加-g参数,这里直接make即可,而后#vim speak.cpp进入编辑界面,因为运行过run macros转载 2014-03-31 10:10:37 · 4352 阅读 · 0 评论 -
视频交流网站技术的研究、发展以及趋势
视频交流网站的主要技术模式以及相关比较: 1、 基于软件的视频交流网站。a) 纯C/S架构,基于软件的视频交流网站,视频交流平台是软件而不是网站。通过网站与软件的数据同步来实现视频交流网站的功能。网站会员通过下载网站提供的客户端登陆,然后在统一的软件平台里进行视频交流。此类技术比较典型的就是:9158以及17say。b) 软件以常规软件模式的P2P技术进行转载 2014-06-24 19:22:20 · 3121 阅读 · 0 评论 -
Java文本语音转换组件JTTS发布(eSpeak封装)
众所周知,所谓TTS即Text To Speech的英文缩写,也就是“从文本转换到语音”。TTS技术的主要作用在于利用计算机合成人语,并将文字信息转化为语音信息进行播放。简单点说,TTS技术赋予了计算机“开口说人话”的能力。作为一项历史悠久的计算机技术,TTS的应用领域可谓非常之广阔。不但可以用来阅读电子邮件,进行IVR系统(Interactive Voice Response)的语音提示原创 2014-03-25 15:24:50 · 5998 阅读 · 3 评论 -
windows下搭建ffmpeg环境
在windows下编译ffmpeg可以采用cygwin或msys+mingw两种方案,我个人比较喜欢msys+mingw方式,因为这样可以在windows下搭建一个类Unix操作系统,并且配置比cygwin要简单,因此本就是描述怎样建立msys+mingw的环境。在windows下搭建ffmpeg编译环境在网上的文章很多,最为详细的可能是这篇文章:http://ffmpeg.arrozcru.转载 2014-02-14 11:20:03 · 4206 阅读 · 0 评论 -
JWPlayer快速入门指南(中文)
JWPlayer快速入门指南网上没找到中文的,花了五一假期翻译了一下!原创 2014-05-04 08:37:12 · 46175 阅读 · 3 评论 -
MEncoder的基础用法—6.1. 选择编解码器及容器格式
6.1. 选择编解码器及容器格式编码使用的音频及视频编码器分别通过-oac及 -ovc选项指定例如输入如下命令mencoder -ovc help可列出你机器上相应版本的MEncoder所支持的所有视频编码。下列选择也是可用的: 音频编码器: 音频编码器名称描述mp3lame通过LAME编码为VBR,ABR或CBR转载 2014-02-10 14:02:30 · 4068 阅读 · 0 评论