机器学习
Zhang_Raymond
机器学习与人工智障
展开
-
偏差-方差分析
其实就机器学习算法来说,其泛化误差可以分解为两部分,偏差(bias)和方差(variance)。偏差指的是算法的期望预测与真实预测之间的偏差程度,反应了模型本身的拟合能力;方差度量了同等大小的训练集的变动导致学习性能的变化,刻画了数据扰动所导致的影响。如下图所示,当模型越复杂时,拟合的程度就越高,模型的训练偏差就越小。但此时如果换一组数据可能模型的变化就会很大,即模型的方差很大。所以模型过于复杂...转载 2018-08-01 22:04:18 · 2348 阅读 · 0 评论 -
机器学习评价指标 ROC与AUC 的理解和python实现
本文所讲内容的前提是一个二分类的任务,多分类任务可以经过简单扩展用转化成二分类。评估一个二分类的分类器的性能指标有:准确率、查准率(precision)、查全率(recall)、F1值以及ROC和AUC等。前面几个比较直观,而ROC和AUC相对抽象一点,本文将重点放在后者。因为本文曾一度没搞清ROC,所以这次彻底搞明白。从混淆矩阵说起首先一个用分类器预测完后,我们会得到一个二分类的混淆...原创 2018-08-15 23:04:44 · 28105 阅读 · 7 评论 -
生成模型和判别模型的区别
先上结论公式上看生成模型: 学习时先得到 P(x,y)P(x,y)P(x,y),继而得到 P(y|x)P(y|x)P(y|x)。预测时应用最大后验概率法(MAP)得到预测类别 yyy。 判别模型: 直接学习得到P(y|x)P(y|x)P(y|x),利用MAP得到 yyy。或者直接学得一个映射函数 y=f(x)y=f(x)y = f(x)。直观上看生成模型: 关注数据是如何生成的 ...原创 2018-08-16 17:26:01 · 9618 阅读 · 1 评论 -
自然语言处理工具包spaCy初体验
spaCy是一个Python自然语言处理工具包,诞生于2014年年中,号称“Industrial-Strength Natural Language Processing in Python”,是具有工业级强度的Python NLP工具包。spaCy里大量使用了 Cython 来提高相关模块的性能,这个区别于学术性质更浓的Python NLTK,因此具有了业界应用的实际价值。初体验本人对S...原创 2018-09-02 01:32:50 · 1475 阅读 · 0 评论 -
变分推断(Variational Inference)学习资料
在机器学习中,贝叶斯框架下有一类常用的求后验概率的近似方法——变分推断,在解决贝叶斯框架下的问题时很常用。自己还没有学习完,暂且先在此总结一些优质的学习资源:Bishop的PRML一书的2,10两章。第二章是一些常用概率分布的基础,第10章介绍了变分推断的方法,主要是mean-field和ep方法。徐亦达老师的视频(YouTube),国内的同学可以从优酷上看。变分推断应用广泛,看到一篇结...原创 2018-10-06 22:18:46 · 2594 阅读 · 0 评论