ML
文章平均质量分 85
csdn0006
公众号:深度学习黑板报
展开
-
决策树(ID3,C4.5,CART)原理以及实现
决策树决策树是一种基本的分类和回归方法.决策树顾名思义,模型可以表示为树型结构,可以认为是if-then的集合,也可以认为是定义在特征空间与类空间上的条件概率分布.[图片上传失败…(image-2e6565-1543139272117)]决策树的中间节点可以看做是对一种特征的判断,也是符合上一次判断特征某种取值的数据集,根节点代表所有数据集;叶子节点看做是判断所属的类别.决策树学习通常包括...原创 2018-11-25 17:51:05 · 923 阅读 · 0 评论 -
KMeans聚类算法分析以及实现
KMeansKMeans是一种无监督学习聚类方法, 目的是发现数据中数据对象之间的关系,将数据进行分组,组内的相似性越大,组间的差别越大,则聚类效果越好。无监督学习,也就是没有对应的标签,只有数据记录.通过KMeans聚类,可以将数据划分成一个簇,进而发现数据之间的关系.原理KMeans算法是将数据x1,x2,...,xn{x^1, x^2 ,..., x^n}x1,x2,...,xn聚...原创 2018-11-26 21:59:56 · 5550 阅读 · 1 评论 -
[Learning-from-data]有限假设空间的可学性
明白机器学习中的通用理论,然后在细化到数学推导,之后再明白局限性以及改进;辅助以代码.笔记.防止看得太过于枯燥.-What is learning?-Can a machine learn?-How to do it?-How to do it well?-Take-home lessons.“学习”我们人类的学习过程,有时候并不是直接从定义学习,更像是实例学习,比如说小孩学习...原创 2018-12-12 21:21:03 · 1247 阅读 · 0 评论 -
[Learning-from-data]无限假设空间的可学性以及模型泛化
Theory of Generalization样本外误差EoutE_{out}Eout测量了训练集D上学习的模型在unseen data上的泛化能力.EoutE_{out}Eout是基于整个输入空间X上的表现来测量的.如果使用样本集来计算模型的EoutE_{out}Eout,这些样本点必须是"unseen",没有在训练集中出现过.对应的,样本内误差EinE_{in}Ein是基于训练集...原创 2018-12-16 17:18:33 · 1090 阅读 · 0 评论 -
词袋模型BoW和词集模型SoW比较
Bag-of-Words词袋模型,经常用在自然语言处理和信息检索当中.在词袋模型中,一篇文本(文章)被表示成"装着词的袋子",也就是说忽略文章的词序和语法,句法;将文章看做词的组合,文中出现的每个词都是独立的,不依赖于其他词.虽然这个事实上并不成立,但是在实际工作中,效果很好.Set-of-Words词集模型SoW:用0-1作为文章中词的数量表示.在词袋模型BoW中,每个词的数量表示有多种方...原创 2018-12-23 11:10:45 · 1646 阅读 · 0 评论 -
朴素贝叶斯以及三种常见模型推导
朴素贝叶斯在机器学习中,朴素贝叶斯分类器是一系列以假设特征之间强(朴素)独立下运用贝叶斯定理为基础的简单概率分类器。朴素贝叶斯算法Naive Bayes定义中有两个关键定义:特征之间强假设独立和贝叶斯定理.这两个定义就是朴素贝叶斯的关键.接下来先了解一下这两个定义.贝叶斯定理贝叶斯定义是概率论中的一个定理,它跟随机变量的条件概率以及边缘概率分布有关.通常,事件A在事件B(发生)的条件...原创 2018-12-26 10:44:03 · 3515 阅读 · 1 评论