Machine Learning
机器学习相关归档
zclhit_
全栈开发者
展开
-
Machine Learning in Action 学习笔记-(1)
第一章引入了监督学习和非监督学习两个概念,介绍了NumbPy库,以及Matplotlib绘图工具协同工作。值得注意的是NumPy函数库中的matrix与MATLAB中matrices等价。如何选择合适的算法将会是一个影响我们工作效率的问题,选择了正确的算法,收集数据,准备数据,分析输入数据(洗数据),训练算法,测试算法,使用算法将会是未来的操作流程。转载 2016-05-30 16:49:30 · 2026 阅读 · 0 评论 -
Machine Learning in Action 学习笔记-(2)kNN k近邻算法
kNN是最常见的聚类算法,通过比较待测被试特征与训练样本之间的欧式距离,选取k个最近的点,然后找出出现概率最高的label作为我们的预测结果。其中k的值,随机选择训练样本的方案,训练样本数目的变化都将会影响到我们最终的聚类准确率。这种基于实例的算法将会使我们无法知道平均实例样本,也将会影响到我们对于典型实例样本特征的理解。最大的收获是学会了更多的Python命令(在numPy)下的转载 2016-06-01 11:05:26 · 2031 阅读 · 0 评论 -
Machine Learning in Action 学习笔记-(3)决策树
决策树对于我们来说就像是一个具有终止块的流程图一样,终止块就向我们展示了分类的结果。通过使得信息熵变化至最小的原理构建我们的决策树不同的层,并且我们可以使用treePlotter.py这个模块来实现决策树的树形图绘制,能够更加直观的向我们展示决策树的结构。决策树的层数将会极大的和我们所具有的feature的数量有关,可能会存在终止块中无法准确决策出结果的情况(比如说feature过少)转载 2016-06-01 22:43:45 · 2107 阅读 · 0 评论 -
Machine Learning in Action 学习笔记-(4)基于概率论的分类方法:朴素贝叶斯
开篇为我们讲解了许多实际应用情况下,我们可能不需要得到精准的分类,而是属于某一类的概率,以及属于其他类的概率。这里我就简单的以论坛侮辱性言语检测为例,来讲一下算法的流程。函数伪代码是:计算每个类别的文档数目对每篇训练文档:对每个类别:如果词条出现在了这个文档中->增加该文档的计数值增加所有词条的计数值对每个类别:对每个词条:将该词条的数目除以总体条数目得到条转载 2016-06-02 23:15:06 · 2051 阅读 · 0 评论 -
Machine Learning in Action 学习笔记-(5)Logistic回归
logistic回归将会首次为我们引入最优化算法的分析思维,在对一系列点通过一条直线进行拟合的过程就是线性回归。寻找最佳的拟合参数,就需要用到我们常用的最优化算法。这里因为是进行二分类,所以可以使用Sigmoid函数实现分类。将线性回归问题转变为了最佳回归系数的迭代选择。梯度上升算法,随机梯度上升算法等都可以被用于这个最佳回归系数的选择过程。在预处理数据时,我们可以通过对缺失数转载 2016-06-05 23:55:55 · 1807 阅读 · 0 评论 -
利用梅尔倒谱系数(MFCC)及空间聚类算法实现音色识别
写在前面2016年4月参加了哈尔滨工业大学深圳研究生院举办的创新创业比赛,司职算法组长,切入点定在了音色识别和相似明星音才艺展示推荐算法上,不才,拿到了一等奖,趁佳节未散与大家分享。项目进度安排2016年1月~2016年3月:前期工作中了解学习了语音信号处理的基本原理,查阅有关文献了解到了声音音色信息的描述方式,梅尔(Mel)倒谱系数的意义,推导了相关公式并实现了MFCC(Mel Fr原创 2017-02-08 12:47:51 · 9142 阅读 · 5 评论