我被windows speech sdk5.1给忽悠了

最新推荐文章于 2021-08-21 14:54:01 发布

kaparo

最新推荐文章于 2021-08-21 14:54:01 发布

阅读量2.7k

点赞数

文章标签： windows 数据挖掘文档 stream google api

本文链接：https://blog.csdn.net/kaparo/article/details/5478342

版权

从上周开始，因为项目组需要，开始做语音方面的东西，就是希望把视频（我们主要做的是新闻）里的语音信号转换为文本，然后在交由数据挖掘模块进行挖掘，这样或许能够提高搜索精度。

刚刚接触语音识别（以前一直在弄中文分词和数据挖掘算法），感觉挺陌生的，不知道从何入手，然后开始Google了，得到最多的结果就是IBM的viavoice，我下载了，安装了，发现不能满足我的要求（如果都能满足要求的话，这个世界就太和谐了），于是乎，我有开始找第二选择，windows speech sdk，因为网络的问题，我光是下载这个软件就花了一天的时间，还差点下不下来，也在pudn上找了一个例子，运行了一下，效果还可以，但他都是基于从麦克风输入的，那我的任务自然就是读sdk，然后开发了！

在csdn上找到了相关文章很多，仔细阅读了几篇，觉得写的很不错，于是开始动手，封装了一个类，写完后，我编译了一下，错误就像房地产一样，特别的多，花了两个小时调试，但是还有两个错误：（SPEI_END_SR_STREAM）SPEI_SR_END_STREAM : undeclared identifier,我仔细查阅了api帮助文档，发现文档里就是这么写的，我第一反应是，难道是这个没有定义，真的没有定义？

然后就开始了漫长的Google之旅，其中经常碰到有相似的问题，但是就是打不开，我这个时候才开始思考我的网速，以及我们伟大的网络长城的厉害。连微软的主页都要屏蔽，难道他们的技术太好，影响了我们祖国的安定团结？

没有办法，我只有在返回去看api帮助文档，我搜索eEventId，然后找到了EVENTIDNUM结构体的定义，在里面我才发现，原来是写错了，那个_END_和_SR_写错了，改了之后，ok，我的心里啊，顿时有一种被欺骗的感觉，为什么同一个文档里面，定义的地方和sample的地方不一样呢，为什么从06年有人提的问题，现在还在里面呢，我有种被忽悠的感觉。

通过这个事情，我知道了，发现错误，肯定是有错误的，不要相信自己的直觉，觉得自己是对的，慢慢的错问题的本质出发，去寻找，总会找到的！

现在可以将wav转换为文档了，效果没有理想的好，因为视频里面讲话的人不能确定，也不能去训练。下一步还是想办法做点基于语义的东西吧，仅仅是基于内容的搜索，肯定是没什么前途的。上周和香港城市大学一个研究员商量过了，将他们的基于语义的视频搜索加入到我们项目中来，这个合作会让我们的项目曾色不少，下面的工作就是研究他的语言搜索了！

kaparo

关注

0
点赞
踩
2

收藏

觉得还不错? 一键收藏
2
评论
我被windows speech sdk5.1给忽悠了

从上周开始，因为项目组需要，开始做语音方面的东西，就是希望把视频（我们主要做的是新闻）里的语音信号转换为文本，然后在交由数据挖掘模块进行挖掘，这样或许能够提高搜索精度。刚刚接触语音识别（以前一直在弄中文分词和数据挖掘算法），感觉挺陌生的，不知道从何入手，然后开始Google了，得到最多的结果就是IBM的viavoice，我下载了，安装了，发现不能满足我的要求（如果都能满足要求的话，这个世界
复制链接

扫一扫