模式识别4次作业汇总
北京工商大学
模式识别作业汇总
(2014年秋季学期)
课程名称:模式识别
专业班级:计研141班
学生姓名:董文菲 刘倩
指导教师:于重重
成绩:
2015年1月20日
第一次课的作业
在Matlab 环境下,利用第一题中给了matlab程序,尝试声音识别过程,并把程序流程图画出。
解:程序实现了识别“kiss”与“love”两个声音的界面图。程序流程图如下:
运行网址
http://www.wcl.ece.upatras.gr/en/ai/resources/demo-emotion-recognition-from-speech
上的java applet ,了解声音识别的过程。
解:智能对话系统的测试点如下图所示,
该智能对话系统可以通过语音交互获取信息,控制娱乐设备等智能应用。情感识别的构成如下图:
情感识别依赖于先进的音频参数化技术,利用高斯混合模型训练情绪识别模型。目前负面情绪的识别得到了很好的结果。
3. 选择鸢尾花数据集(iris,网上下载),并尽可能多地使用《数据挖掘导论第三章》介绍的不同的可视化技术完成数据预处理(可参看第三章资料中的辅助ppt),形成报告。文献注释和该书网站提供了可视化软件的线索。
解:(1)分类
选择朴素贝叶斯分类器算法,训练选项选择交叉验证,即把数据集分成若干份,1份作为验证集,其余部分作为训练集合。这样的方法保证了数据集的所有元素都被验证过。这里把数据集分为10份来进行训练。
分类器运行的信息,分类器训练的结果,分类器验证验证的结果、准确性计算等信息如下:
Visualize信息图,3种类别用不同颜色表示出来。可以从图中看出哪些属性的组合具有较好的区分度。
离散化(discretize):
类weka.filters.supervised.attribute.Discretize和weka.filters.unsupervised.attribute.Discretize。分别进行监督和无监督的数值属性的离散化,用来离散数据集中的一些数值属性到分类属性。unsupervised.attribute.Discretize:
supervised.attribute.Discretize
规范化(Nomalize):
类weka.filters.unsupervised.attribute.Normalize。规范化给定数据集中的所有数值属性值,类属性除外。结果值默认在区间[0,1],但是利用缩放和平移参数,我们能将数值属性值规范到任何区间。如:但scale=2.0,translation=-1.0时,你能将属性值规范到区间[-1,+1]。标准化(standardize):
类weka.filters.unsupervised.attribute.Standardize。标准化给定数据集中所有数值属性的值到一个0均值和单位方差的正态分布。
第二次课的作业
1.
解:属性有四种类型:标称、序数、区间、比率。其中标称和序数属性统称分类的或定性的。区间和比率是数值的或定量的。[h,p,st] = chi2gof(bins,'ctrs',bins,...
'frequency',obsCounts, ...
'expected',expCounts)
bin:有n组数值则:bin=0:(n-1);
obsCounts:观测值
expCounts:期望值
h,p,st:返回值
3)符号检验
符号检验法:是通过两个相关样本的每对数据之差的符号进行检验,从而比较两个样本的显著性。具体地讲,若两个样本差异不显著,正差值与负差值的个数应大致各占一半。
符号检验与参数检验中相关样本显著性t检验相对应,当资料不满足参数检验条件时,可采用此法来检验两相关样本的差异显著性。
根据符号检验判断差异显著性时也要查表找出相应的临界值。但特别应注意的是在某一显著性水平下,实得的r值大于表中r的临界值时,表示差异不显著,这一点与参数检验时的统计量和临界值的判断结果不同。
4)均值
M = mean(A)
返回沿数组中不同维的元素的平均值。
如果A是一个向量,mean(A)返回A中元素的平均值。
如果A是一个矩阵,mean(A)将中的各列视为向量,把矩阵中的每列看成一个向量,返回一个包含每一列所有元素的平均值的行向量。 如果A是一个多元数组,mean(A)将数组中第一个非单一维的值看成一个向量,返回每个向量的平均值。
例:
5)标准差(Standard Deviation)
在概率统计中最常使用作为统计分布程度(statistical dispersion)上的测量。标