2020年02月_工业机器视觉设计和实现

10月 09月 07月 06月 05月 04月 03月 02月 01月

原创我的AI大学（入门篇，学以致用，尽是实战，我的AI世界）

洋洋洒洒已经七十篇，可以整理一本书了，书名就叫：我的AI大学（我的AI世界）以下是这分章整理的七十篇：第一章，写给父亲的语音计算器计算机就是从小小的计算器开始的，计算器设计中有原始的编译器原理，而编译器本身蕴含AI，这个计算器虽然只有加减乘除和括号的优先级运算，我只想以小见大（或者说就是给父亲用，设计成电脑上最大号的，看得清，听得清），因为每个人的术业专攻不同。其实AI不是个新事物，在...

2020-02-23 13:11:36 214

原创 mfcc总结，从mfcc到薛定谔方程的推导理解

在mfcc学习过程中，遇到这样的讲解：1，声道的形状在语音短时功率谱的包络中显示出来。而MFCCs就是一种准确描述这个包络的一种特征。2，将原始的频谱由两部分组成：包络h[k]和频谱的细节E[k]。共振峰在包络h[k]中，共振峰就是携带了声音的辨识属性（就是个人身份证一样）。3，而我们所关心的h[k]就是倒谱的低频部分。h[k]描述了频谱的包络，它在语音识别中被广泛用于描述特征。下...

2020-02-22 13:50:07 651

原创 mfcc总结，对比直方图均衡化（二）

再看直方图均衡化：对比：MFCC0，原图像，以下有x=k-1. < 0>，原来的声音波形图1，Nx是图像的统计直方图，x属于【0,255】 < 1>，X...

2020-02-21 16:27:00 546

原创 mfcc总结，对比直方图均衡化（一）

在人脸识别中（opencv），隐藏了一个不起眼的函数，叫做直方图均衡化。搞定mfcc之后，有一天早晨起床，突然发现mfcc神似直方图均衡化，又打开吃灰的概率论和图像处理，反复研究，迈上一个台阶，终于懂了直方图均衡化。今天我们先搞定直方图均衡化，你可以看一看，mfcc是如何神似藏其中的。翻开概率论，问，已知ε的概率密度函数是φε（x），η=4*ε-1，求η的概率密度函数φη（x）。求解如下F...

2020-02-21 12:21:37 387

原创 mfcc总结，这个mel三角滤波器分组到底是如何起作用的呢？

先看fft频谱图（这是4096字节取样fft计算，横轴频率是从0到512，后边意义不大，未取，纵轴是振幅），那些我随便画的蓝色线，你有什么联想？：再看，这绿色线，是否有一种上升后，便逐渐式微的感觉，都是三角形的，这或许也是mel当初和绝大多数人看到的：如果在振幅上加上一条限制的黑线（振幅门槛限制），黑色线以下很多频率就没有意义了，你看，有用的频率连一半（512/2=256）都占不到...

2020-02-19 17:23:13 8917 12

原创新知mfcc语音识别esp8266继电器开关灯（成为一个DIYer,八）

我们现在完整走一遍mfcc，假定，我们的‘开’音记录在bt4096[4096]数组之中，要搞定这个，前面博客有例子程序，我是一路走下来的，我们取样率8k/s,但我们只取4096字节，一个字节范围是0-255，记录波形以128为中心，上下波动，比如，一般噪音都在128取值附近，所以当我们要想知道一个波形的振幅A,用A=bt4096[i]-128来表达。1，预加重，公式用程序语言表达，bt4096...

2020-02-17 19:57:24 1776

原创新知mfcc语音识别esp8266继电器开关灯（成为一个DIYer,七）

这一节继续Hm(k)的计算,还是看代码：k=4，应该不难理解吧！上一节有解释。这是Hm（k）的程序验证。我们用Xa（k）=实部+j*虚部,代表第a帧快速傅里叶变换结果，|Xa（k）|=math.sqrt(实部^2+虚部^2),|Xa（k）|^2=实部^2+虚部^2,而mel短时（256字节）功率谱怎么表达呢？s(m)=ln∑Hm(k)*|Xa（k）|^2;m就是26组，所以...

2020-02-17 15:24:00 589

原创新知mfcc语音识别esp8266继电器开关灯（成为一个DIYer,六）

回过头看自己的博文，傅里叶语音识别全家福，识别的重任最后落在了重音口琴的肩上，do，re，mi，fa，sol，la，xi，这是我不愿意看到的，但其他尝试都是差强人意，而口琴在音准方面比起我们的口发音实在是好多了，心知肚明，不知多少次日夜的测试啊！这点小小的成绩，真是不容易，还有电脑风扇的噪音，偶尔摩托噪音，飞机飞过噪音，广播噪音，人的噪音干扰，但口琴还真没让你失望，其实是fft，在此基础上，你押宝...

2020-02-17 13:31:52 483

原创新知mfcc语音识别esp8266继电器开关灯（成为一个DIYer,五）

我们接着讲我们的零，有两点好处，继续展开mfcc，先上图，看你能否看出其中的好处：先看第一幅开：第二幅开：第三幅开：第四幅开：能说明问题就好，我们不再上关的一系列图了，多了也会烦，你有木有看出其中的好处了呢？我们取样4096字节，256字节一划分，应该有16划分（帧），但我们是每隔128字节（mfcc要求的）取256字节做傅里叶变换的，粗略一算，应该翻一番为32...

2020-02-17 09:40:24 395

原创新知mfcc语音识别esp8266继电器开关灯（成为一个DIYer,四）

这次我们改变方式，文字艰难，我们先上图，看的多了，懂了，有兴趣，再看代码，mfcc语音识别讲的人已经很多了，我们实操，前面我们已经讲过声音采集，所以这里直接上图，开灯，‘开’这个音的波形和mfcc识别的结果，以及关灯，‘关’音的波形和mfcc识别结果，我们使用8kbyte采样每秒的录音，而有效的‘开’音和‘关’音，2048byte就够用了，由于显示的原因，我分两幅图*1024=2048来显示一个音...

2020-02-16 22:07:47 574