![](https://img-blog.csdnimg.cn/20201014180756928.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
机器学习
文章平均质量分 73
combatants19
这个作者很懒,什么都没留下…
展开
-
Kaggle的Digits Recognizer题目实现
机器学习看了有一阵子了,一些常用的算法已经有些了解。应该拿个项目/比赛练习一下,看看机器学习到底是如何应用的。Kaggle是个非常不错的机器学习和数据挖掘的比赛网站,网站提供数据,可以拿来练习算法。下面是101里面的第一道题,Digit Recognizer。用Python实现的。应用了KNN,SVM和RF算法。今天先贴上代码,过几天把相应的算法原理也写上,方便深入理解。这段代码是参照别的大神写的原创 2016-05-30 19:04:58 · 701 阅读 · 0 评论 -
集成学习(Boosting,Bagging和随机森林)
今天看了一下集成学习部分,把相关知识点总结了一下。这个是无公式版,想看公式的话,请看《机器学习》--周志华 这本书。 通过结合多个学习器完成学习任务,也叫“多分类器系统”、“基于委员会的学习”等。如果集成在一起的学习器都是同一种学习器(例如都是神经网络或者决策树),这种集成叫做“同质集成”,相应的学习器叫做“基学习器”,应用的算法叫做“基学习算法”。如果集成在一起的学习器不是同一种学习器(原创 2016-06-01 16:57:00 · 7735 阅读 · 2 评论 -
决策树
和决策树有关的算法一共有3种,分别为ID3,C4.5和CART。前两种算法为同一个作者Quinlan,后一个作者是Breiman et al.。 ID3 信息熵(information entropy):衡量数据集的纯度。如果该数据集分类越少,例如只有2种分类结果,则该数据集的信息熵比有3种分类结果的信息熵要小。公式为:。注:logPk的结果为负数,因为Pk为小于1的数。信息增益(in原创 2016-06-03 11:37:59 · 1118 阅读 · 0 评论 -
模型评估与选择
评估方法 留出法:直接将数据集D划分为两个互斥的集合,其中一个是训练集S,另一个是测试机(准确说是验证集)T。训练集和验证集的划分要尽可能保持数据分布一致。常用作法将数据集的2/3 ~ 4/5用作训练集,其余的用作验证集。由于存在很多种把数据集进行划分的方法,所以,通常进行多次数据集的划分。最后返回多次划分集合结果的平均值。例如进行了100次集合数据的划分,则求100次结果的平均值。交叉原创 2016-06-27 19:21:18 · 5803 阅读 · 0 评论 -
线性模型
基本形式: 线性回归: 对于离散属性,若属性间存在“序”关系,可通过连续化将其转化为连续值,例如二值属性“身高”的取值“高”、“矮”可转化为{1.0,0.0},三值属性“高度”的取值“高”、“中”、“低”可转化为{1.0,0.5,0.0}等。若属性值间不存在序关系,假定有k个属性值,则通常转化为k维向量,例如属性“瓜类”的取值“西瓜”、“南瓜”、“黄瓜”可转化为(0,0,1),原创 2016-07-06 20:02:19 · 1932 阅读 · 0 评论 -
神经网络
神经元模型 一个神经元要接受多个输入,每个输入都带有一个权值,来调整该输入对结果影响程度。输入到一个神经元后,每个神经元又有一个阈值。只有输入该神经元的信息之和大于该阈值,才会激活该神经元,和脑神经元一样,激活后,才会继续往后传播。每个神经元(不包括输入层)都符合M-P模型。 理想的f函数是阶跃函数,,。但是由于该函数具有不连续,不光滑等性质,常用Sigmoid函数替代。,。因为该函数原创 2016-06-22 10:02:22 · 1022 阅读 · 0 评论 -
蒙特卡洛方法(Monte Carlo)
转载于:http://www.ruanyifeng.com/blog/2015/07/monte-carlo-method.html 蒙特卡罗方法入门 本文通过五个例子,介绍蒙特卡罗方法(Monte Carlo Method)。 一、概述 蒙特卡罗方法是一种计算方法。原理是通过大量随机样本,去了解一个系统,进而得到所要计算的值。 它非常强大和灵活,又相转载 2016-07-21 19:19:25 · 2273 阅读 · 0 评论