
机器学习
文章平均质量分 66
不系之舟913
这个作者很懒,什么都没留下…
展开
-
Keras/Python深度学习中的网格搜索超参数调优(附源码)
超参数优化是深度学习中的重要组成部分。其原因在于,神经网络是公认的难以配置,而又有很多参数需要设置。最重要的是,个别模型的训练非常缓慢。在这篇文章中,你会了解到如何使用scikit-learn python机器学习库中的网格搜索功能调整Keras深度学习模型中的超参数。阅读本文后,你就会了解:如何包装Keras模型以便在scikit-learn中使用,以及如何使用网格搜索。 如何网格搜索常见的神经转载 2016-08-16 08:49:13 · 12777 阅读 · 1 评论 -
《机器学习实战》学习(二)——决策树(DT)
1、决策树简述决策树学习是一种逼近离散值目标函数的方法,在这种方法中学习到的函数被表示为一棵决策树。在周志华老师的《机器学习》这本书中专门一章节对决策树进行了讲述。并对id3算法后的改进算法也做了相应的介绍。决策树容易导致过拟合现象,介绍了预剪枝和后剪枝等相关的处理方法。决策树依赖测试集,可以把测试集生成的树结构序列化存到文件中,下次使用可以很快进行加载。 一个牛人对决策树的总结,我觉得很有道理,翻译 2016-09-11 21:57:35 · 3149 阅读 · 0 评论 -
《机器学习实战》学习(三)——决策树实例
实例一 《机器学习》书中4.3习题1、问题描述试编程实现基于信息熵进行划分选择的决策树算法,并为表4.3中数据生成一棵决策树,表4.3数据如下:‘色泽’,’根蒂’,’敲声’,’纹理’,’脐部’,’触感’,’密度’,’含糖率’ 青绿 蜷缩 浊响 清晰 凹陷 硬滑 0.697 0.46 是 乌黑 蜷缩 沉闷 清晰 凹陷 硬滑 0.774 0.376 是原创 2016-09-11 22:01:33 · 16262 阅读 · 2 评论 -
《机器学习实战》学习(一)——k-近邻算法(kNN)
1、k近邻算法的理解K最近邻(k-Nearest Neighbor,KNN)分类算法,是一个理论上比较成熟的方法,也是最简单的机器学习算法之一。该方法的思路是:如果一个样本在特征空间中的k个最相似(即特征空间中最邻近)的样本中的大多数属于某一个类别,则该样本也属于这个类别。 可以简单的理解为是通过测量与不同特征值之间的距离来进行分类。书中采用欧式距离实现k近邻算法。2、书中例子的Python实现与原创 2016-09-01 17:00:50 · 716 阅读 · 0 评论 -
周志华《机器学习》之 第一章(绪论) 概念总结
1)回归与分类:利用机器学习对离散值进行预测时,称为“分类”,而对连续值进行预测时,称为“回归”。 2)监督学习与无监督学习:根据训练数据是否有标记信息,学习任务可大致分为两大类,“监督学习”与“无监督学习”,分类和回归是前者的代表,聚类则是后者的代表。 机器学习的常用方法,主要分为有监督学习(supervised learning)和无监督学习(unsupervised learning)转载 2016-08-12 11:13:09 · 668 阅读 · 0 评论 -
周志华 《机器学习》之 第二章(模型评估与选择)概念总结
本书第二章主要从经验误差与过拟合、评估方法、性能度量、比较检验、偏差与方差几个方面进行介绍 1)经验误差与过拟合 错误率:表示分类错误的样本占总样本数的比例 即: 错误率=错误分类样本数样本总数错误率= \frac {错误分类样本数} {样本总数} 精度 = 1- 错误率 误差:表示学习器的实际预测输出与样本真实输出直接的差异 训练误差与经验误差原创 2016-08-12 14:05:31 · 842 阅读 · 0 评论 -
周志华 《机器学习》之 第三章(线性模型)概念总结
阅读之后,根据周志华老师对本章节的安排,首先从线性模型的基本形式入手,逐渐引入线性回归、对数几率回归、线性判别分析(LDA)、多分类学习等多种线性模型,最后针对类别不平衡问题总结了一些相关的解决思路 1)线性模型的基本形式 一般用向量形式写成 f(x)=wTx+bf(x) = w^Tx+b 线性模型形式简单、易于建模,却蕴涵着机器学习中的一些重要的基本思想。许多功能更为强大的线性模型(nonl原创 2016-08-12 14:58:43 · 3472 阅读 · 0 评论 -
周志华 《机器学习》之 第八章(集成学习)概念总结
看完集成学习类容,最大的感受就是学习了众多机器学习算法,各有优缺点,那么如何集各大算法优点使得最优的完成任务呢?那就是本章提到的集成学习。周老师书中按如下章节介绍:1、个体与集成2、Boosting3、Bagging与随机森林4、结合策略5、多样性原创 2016-08-19 15:56:13 · 3312 阅读 · 0 评论 -
周志华 《机器学习》之 第九章(聚类)概念总结
记得在读研期间,去选修数据挖掘与数据仓库这门课,当时老师讲的很多的一个知识点,那就是聚类分析,然后老师讲了很多什么关联分析等等,很多都忘记了,当时也是听得云里雾里的。看完周老师在机器学习这本书中提到的聚类,大概理解了聚类能做什么,能解决什么样的问题。周老师在数据介绍了多种聚类算法。聚类可以说是一种无监督的学习,也就是说在训练样本中对应的标记信息是没有的,目标是通过对无标记训练样本的学习来揭示数据内在原创 2016-08-26 10:20:40 · 2375 阅读 · 0 评论 -
周志华 《机器学习》之 第14、15、16章 概念总结
14章:概率图模型参阅:http://www.cnblogs.com/ironstark/p/5229085.html15章:规则学习参阅:http://blog.csdn.net/pallypally/article/details/803215816章:强化学习参阅:http://my.oschina.net/stone8oy/blog/270349总结: 至此就将周老师的机器学习这本书采用走原创 2016-08-31 13:58:21 · 655 阅读 · 0 评论 -
周志华 《机器学习》之 第十三章(半监督学习)概念总结
在前面章节中接触到的大部分都是监督学习方法以及无监督学习方法(聚类),这章讲述的半监督学习,我个人理解,应该是存在一部分标记样本,但是又不足以训练出一个良好性能的学习器,因此采用将其它未标记样本加入其中进行训练,这样的学习称为半监督学习。 对半监督的理解可参阅http://blog.csdn.net/yhdzw/article/details/227333711、未标记样本2、生成式方法3、半监督原创 2016-08-30 11:08:30 · 2449 阅读 · 0 评论 -
周志华 《机器学习》之 第五章(神经网络)概念总结
记得在读研期间认真学习过神经网络这门课程,当时老师讲得也挺细的,自己当时觉得理论也学得还不错,在结课的时候记得用BP神经网络C++实现过一个简单的验证码识别程序,所以对BP神经网络理解还是有一定记忆的,今天看完周老师的这本机器学习书中讲解的神经网络,又对之前的学习做了一个回顾。虽然没有哪门专门的课程哪门细致,但是也足够让我了解到神经网络应用到机器学习中的意义。特别是在最后小节中讲述了深度学习,目前深原创 2016-08-16 11:05:57 · 2253 阅读 · 0 评论 -
周志华 《机器学习》之 第六章(支持向量机)概念总结
在之前就一直总是零零碎碎了解过这个热及一时的统计学方法对样本进行分类的支持向量机算法。一直想系统的了解一下支持向量机这个很强的分类算法,有幸在周老师的机器学习这本书中进行系统的学习。 这里我只列出一些需要重点理解的概念,以方便以后自己进行回顾,在博客中也阅读了牛人写的一篇对svm有详细介绍的文章,文章分三层介绍,不过总之来讲可以说跟周老师讲解的很相近,附上链接 http://blog.csdn.原创 2016-08-16 14:27:14 · 1488 阅读 · 0 评论 -
牛人对机器学习常用方法的总结
机器学习(MachineLearning),在我看来就是让机器学习人思维的过程。 机器学习的宗旨就是让机器学会“人识别事物的方法 ”,我们希望人从事物中了解到的东西和机器从事物中了解到的东西一样,这就是机器学习的过程。在机器学习中有一个很经典的问题:“假设有一张色彩丰富的油画,画中画了一片茂密的森林,在森林远处的一棵歪脖树上,有一只猴子坐在树上吃东西。如果我们让一个人找出猴子的位置,正常情转载 2016-07-21 17:14:33 · 997 阅读 · 0 评论 -
周志华 《机器学习》之 第十章(降维与度量学习)概念总结
降维在一起图像识别过程也经常被采用的一种分类算法,例如二维数据经过投影变为一维数据,从而更好的表征数据的特征,再进行识别。在前面章节中提到过LDA(线性判别分析)也可以当做一种简单降维处理。在周老师的这章中主要讲述PCA主成分分析算法对高维数据进行降维。降维是一种解决维数灾难的重要途径。书中从如下几节进行介绍:1、K邻近学习2、低维嵌入3、主成分分析(PCA)4、核化线性降维5、流形学习6、度量学习原创 2016-08-26 13:59:37 · 3465 阅读 · 1 评论 -
周志华 《机器学习》之 第七章(贝叶斯分类器)概念总结
贝叶斯分类器是利用概率的知识完成数据的分类任务,在机器学习中使用贝叶斯决策论实施决策的基本方法也是在概率的框架下进行的,它是考虑如何基于这些概率和误判损失来选择最优的类别标记。贝叶斯决策论 条件风险:极大拟然估计朴素贝叶斯分类器半朴素贝叶斯分类器贝叶斯网EM算法原创 2016-08-19 14:18:48 · 3599 阅读 · 1 评论 -
周志华 《机器学习》之 第十一章(特征选择与稀疏学习)概念总结
在做图像识别的程序中,我们经常遇到特征这个词语,也常有特征提取作为识别的前序工作,通常我们可以根据提取到的特征,根据应有特征进行对比,最终完成对物体缺陷等的识别。那么在提取到的众多特征中,如何有效的提取到能很好进行分类的特征呢?在识别过程中,往往通过经验总结,或直接的抽象特征作为判别条件。在机器学习中,周老师讲到的特征选择,我想也是对属性空间中所有特征,进行一个筛选,选择出有效特征。我想我们也可以理原创 2016-08-29 17:53:48 · 4548 阅读 · 0 评论 -
周志华 《机器学习》之 第十二章(计算学习理论)概念总结
看到12章,题目叫计算学习理论,当时一萌,这是干什么用的呢?前面的章节中基本都是讲述了一些机器学习的一些常用方法。看到这个标题我的第一反应应该是理论方面的研究,那是否对计算与学习这两方面的理论研究呢?既然是理论的东西,我想对于一般应用机器学习算法的来说,可能意义不大吧!但是我个人认为有可能也可以指导我们进行算法设计。周老师数据对计算学习理论这么描述的,(是关于机器学习的理论基础,其目的是分析学习任务原创 2016-08-30 10:28:13 · 1787 阅读 · 0 评论 -
周志华 《机器学习》之 第四章(决策树)概念总结
看完周老师的决策树章节,首先从内容安排上采用了循序渐进的方式引入介绍决策树这种分类算法。书中从基本流程、划分选择、剪枝处理、连续与缺失值、多变量决策树五个方面进行详细介绍。看完之后我们如何理解决策树呢? 1、决策树的概念:首先我们可以明确决策树同其他机器学习算法一样,是一种解决分类问题的算法。从名字上我们可以看出决策树是一颗树的存储结构,图显示的话,这个算法应该就是一颗数。在机器学习中,一颗决策树原创 2016-08-15 14:41:51 · 1564 阅读 · 0 评论