王小草机器学习笔记
文章平均质量分 92
王小小小草
人工智能、机器学习、深度学习、自然语言处理、程序媛
展开
-
王小草【机器学习】笔记--分类算法之朴素贝叶斯
标签(空格分隔): 王小草机器学习笔记1. 概率论知识1.1 先验概率与后验概率假设有两个事件A和B: P(A) 为A的先验概率,它不考虑任何B事件的因素; P(B) 也为B的先验概率,它不考虑任何A事件的影响; P(A/B) 是B事件发生后,A事件发生的概率,此时A受到B的影响,故称为A的后验概率; P(B/A) 是A事件发生后,B事件发生的概率,同理,称为B的后验概率。1.2 条件概率要原创 2016-12-08 16:38:46 · 1566 阅读 · 2 评论 -
王小草【机器学习】笔记--提升之XGBoost工具的应用
笔记整理时间:2016年12月29日 整理者:王小草 欢迎关注: 王小草的FM喜马拉雅主播频道:搜索账号名“好吧我真的叫王草” 王小草的个人微信公众号:bigdataML 王小草的CSDN博客地址:http://my.csdn.net/sinat_337619631. XGBoost介绍XGBoost的作者是华盛顿大学陈天奇。XGBoost是使用梯度提升框架实现的高效,灵活,可移植的机器学原创 2016-12-29 16:44:10 · 4518 阅读 · 1 评论 -
1.模型评估的方法与性能度量
模型评估的方法与性能度量标签(空格分隔): 王小草机器学习笔记周志华《机器学习》笔记整理1.评估模型的方法通常,将学习器的预测输出与真实输出之间的差异称为“误差”。 学习器在训练集上的误差叫做“经验误差(empirical error)”或者“训练误差(traing error)”;在新样本上的误差叫做“泛化误差(generalization error)”。我们希望得到在新样本上表现很好的学习器原创 2017-02-07 15:32:58 · 11210 阅读 · 0 评论 -
2.模型性能的比较检验
标签(空格分隔): 王小草机器学习笔记通过模型评估的方法与性能的度量我们知道了学习器的性能指标,但是如何知道这个学习器的性能是否真的达到要求,或者如何在统计学上比较学习器A优于学习器B,以及这个把握有多大呢?在统计学上,我们使用“统计假设检验”(hypothesis test)。2.1 对单个学习器泛化性能的假设检验做了多次留出法或者交叉验证法之后,会有多个测试误差率,此时使用“t检验”(t-tes原创 2017-02-15 10:57:27 · 10751 阅读 · 2 评论 -
热词的识别与提取算法
热词的识别与提取算法标签原创 2016-06-17 11:27:58 · 13297 阅读 · 2 评论 -
王小草【机器学习】笔记--主题模型LDA
标签(空格分隔): 王小草机器学习笔记笔记整理时间:2016年12月30日 笔记整理者:王小草1. 共轭先验分布1.1 β分布在进入正题之前,先来了解一下beta分布。Γ函数 Γ函数是阶乘在实数上的推广。β分布 Beta分布的概率密度函数为:f(x) = 其中系数B为: Γ函数可以堪称是阶乘的实数域推广。 Beta分布的期望可以定义为: 1.2 共轭先验分布回顾贝叶斯分类算法,通过先验概原创 2016-12-30 18:11:48 · 1877 阅读 · 1 评论 -
王小草【机器学习】笔记--隐马尔可夫模型HMM
标签(空格分隔): 王小草机器学习笔记机器学习的套路: 参数估计–>模型预测隐马尔可夫模型需要涉及的步骤: 概率计算 参数估计 模型预测应用:中文分词,语音识别等在中文分词中,如果学习到了参数,隐马尔可夫就不需要词库也可以分词,但如果有词库,就会增加正确性。 所以在工业中可以HMM+词典来进行中文分词 但HMM可以发现新词,这个新词在词库中是没有的。1. 什么是HMM1.1 HMM初识H原创 2016-12-08 17:04:51 · 2566 阅读 · 0 评论 -
王小草【机器学习】笔记--分类算法之决策树
标签(空格分隔): 王小草机器学习笔记决策树可以用于解决分类问题,也可以用于解决连续型的回归预测问题,是业界常说的机器学习的十大算法之一。决策树也属于监督学习的一种。在教科书里必须会出现的,常用的决策树大概有3种,分别是C4.5,ID3,CART算法。本章中都会一一详细讲述。1. 决策树的结构决策树是由节点和有向边组成。节点分两种类型:内部节点与叶子节点。 内部节点:表示的是一个特征 叶子节点:原创 2016-12-08 17:03:04 · 3964 阅读 · 0 评论 -
王小草【机器学习】笔记--支持向量机SVM
标签(空格分隔): 王小草机器学习笔记1.SVM的原理与目标1.1 分割超平面来看上图,假设C和D是两个不想交的凸集,则存在一个超平面P,这个P可以将C和D分离。这两个集合的距离,定义为两个集合间元素的最短距离。做集合C和集合D最短线段的垂直平分线。这条垂直平分线就是分割超平面。在两个集合之间,可以有无数条分割超平面,使其将两个集合分离,但是如何定义与找出两个集合的“最优”分割超平面呢?可以这样做:原创 2016-12-08 17:00:50 · 6320 阅读 · 0 评论 -
王小草【机器学习】笔记--EM算法
标签(空格分隔): 王小草机器学习笔记EM算法的英文全称是Expectation Maximization Algorithm,也就是求期望最大化,也就是我们常说的目标函数求最大值的算法。EM算法,直观的说,就是有一堆未知的数据(比如一些特征值),这些数据可能来自于不同的类别,而你想知道的是每一个数据都来自于哪个类别,并且知道来自于这个类别的概率是多少。而在EM算法看来,每一个类别中的数据必然服从了原创 2016-12-08 16:58:08 · 5506 阅读 · 1 评论 -
王小草【机器学习】笔记--无监督算法之聚类
标签(空格分隔): 王小草机器学习笔记1. 聚类的概述存在大量未标注的数据集,即只有特征,没有标签的数据。 根据这些特征数据计算样本点之间的相似性。 根据相似性将数据划分到多个类别中。 使得,同一个类别内的数据相似度大,类别之间的数据相似度小。2. 相似性的度量方法2.1 欧式距离欧氏距离指的是在任何维度的空间内,两点之间的直线距离。距离越大,相似度越小,距离越小,相似度越大。公式如下: 2原创 2016-12-08 16:48:09 · 10299 阅读 · 4 评论 -
王小草【机器学习】笔记--提升
王小草【机器学习】笔记–提升标签(空格分隔): 王小草机器学习笔记集成学习集成学习(ensemble learning)是通过构建多个学习器来完成学习任务的。按照集成中学习器是否是同种类型,可分为: 同质(homogeneous)的集成:集成中只包含同种类型的个体学习器,例如决策树集成全是决策树,神经网络集成全是神经网络。同质集成中的个体学习器称为“基学习器(base leaner)”,学习算法称原创 2017-05-06 16:53:01 · 2210 阅读 · 1 评论