我被windows speech sdk5.1给忽悠了

从上周开始,因为项目组需要,开始做语音方面的东西,就是希望把视频(我们主要做的是新闻)里的语音信号转换为文本,然后在交由数据挖掘模块进行挖掘,这样或许能够提高搜索精度。

刚刚接触语音识别(以前一直在弄中文分词和数据挖掘算法),感觉挺陌生的,不知道从何入手,然后开始Google了,得到最多的结果就是IBM的viavoice,我下载了,安装了,发现不能满足我的要求(如果都能满足要求的话,这个世界就太和谐了),于是乎,我有开始找第二选择,windows speech sdk,因为网络的问题,我光是下载这个软件就花了一天的时间,还差点下不下来,也在pudn上找了一个例子,运行了一下,效果还可以,但他都是基于从麦克风输入的,那我的任务自然就是读sdk,然后开发了!

在csdn上找到了相关文章很多,仔细阅读了几篇,觉得写的很不错,于是开始动手,封装了一个类,写完后,我编译了一下,错误就像房地产一样,特别的多,花了两个小时调试,但是还有两个错误:(SPEI_END_SR_STREAM)SPEI_SR_END_STREAM  : undeclared identifier,我仔细查阅了api帮助文档,发现文档里就是这么写的,我第一反应是,难道是这个没有定义,真的没有定义?

然后就开始了漫长的Google之旅,其中经常碰到有相似的问题,但是就是打不开,我这个时候才开始思考我的网速,以及我们伟大的网络长城的厉害。连微软的主页都要屏蔽,难道他们的技术太好,影响了我们祖国的安定团结?

没有办法,我只有在返回去看api帮助文档,我搜索eEventId,然后找到了EVENTIDNUM结构体的定义,在里面我才发现,原来是写错了,那个_END_和_SR_写错了,改了之后,ok,我的心里啊,顿时有一种被欺骗的感觉,为什么同一个文档里面,定义的地方和sample的地方不一样呢,为什么从06年有人提的问题,现在还在里面呢,我有种被忽悠的感觉。

通过这个事情,我知道了,发现错误,肯定是有错误的,不要相信自己的直觉,觉得自己是对的,慢慢的错问题的本质出发,去寻找,总会找到的!

现在可以将wav转换为文档了,效果没有理想的好,因为视频里面讲话的人不能确定,也不能去训练。下一步还是想办法做点基于语义的东西吧,仅仅是基于内容的搜索,肯定是没什么前途的。上周和香港城市大学一个研究员商量过了,将他们的基于语义的视频搜索加入到我们项目中来,这个合作会让我们的项目曾色不少,下面的工作就是研究他的语言搜索了!

  • 0
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 2
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值