machine learning
文章平均质量分 90
TensorSense
机器学习(深度学习)爱好者、学习者及从业者
展开
-
博文翻译系列——如何入门数据科学 without spending a penny
转载请注明出处:博文翻译转载系列——基于“输入输出”学习方法,非直译的方式转载国外博文,取其精华去其糟粕转化为自己的语言,供大家学习交流。目录数学与代码基础机器学习与深度学习基础总结与建议原文:https://medium.com/@pranshumshr.04/how-i-learned-data-science-without-spending-a-penny-67d2ac5d04a1译文:博文翻译系列——How I learned Data Science without spendin.原创 2021-10-22 10:07:02 · 397 阅读 · 1 评论 -
【机器学习-西瓜书】七、朴素贝叶斯分类器
推荐前期阅读:http://blog.csdn.net/u011995719/article/details/76732663 推荐阅读:拉普拉斯修正7.3朴素贝叶斯分类器关键词: 朴素贝叶斯;拉普拉斯修正 上一小节我们知道贝叶斯分类器的分类依据是这公式:P(c∣x)=P(x,c)P(x)=P(c)⋅P(c∣x)P(x)P(c\mid x)=\frac{P(x,c)}{P(x)}=\frac{P(原创 2017-09-02 11:35:34 · 5148 阅读 · 2 评论 -
重新认识贝叶斯公式
统计学中,在探讨 不确定性(概率) 这件事时分两派:频率学派和贝叶斯学派。 频率学派认为概率是事件在长时间内发生的频率,是固定的。(比如我们若何得知抛一枚硬币出现正面的概率是0.5,这是通过抛了好多好多次之后,我们统计正面出现频率发现是0.5,那就认为抛一枚硬币出现正面的概率是0.5,注意,这里是必须抛好多好多次之后,我们才能得到概率)贝叶斯学派认为概率是被解释为我们对一件事情发生的相信程度,即对原创 2017-08-05 19:27:44 · 1886 阅读 · 0 评论 -
【机器学习-西瓜书】二、模型评估:过拟合;自助法;交叉验证法
关键词: 错误率(error rate);精度(accuracy);经验误差(empirical error);泛化误差(generalization error);过拟合(overfitting);留出法(hold-out);交叉验证法(cross validation);自助法(bootstrapping);训练集(train set)、验证集(valid set)、测试集(test set...原创 2017-08-21 16:19:24 · 11604 阅读 · 6 评论 -
【机器学习-西瓜书】二、性能度量:召回率;P-R曲线;F1值;ROC;AUC
关键词:准确率(查准率,precision);召回率(查全率,recall);P-R曲线,平衡点(Break-Even Point, BEP);F1值,F值;ROC(Receiver Operating Characteristic,受试者工作特征);AUC(Area Under ROC Curve);非均等代价(unequal cost)2.3性能度量关键词:准确率(查准率,precision);原创 2017-08-22 16:26:28 · 4702 阅读 · 0 评论 -
【机器学习-西瓜书】二、偏差-方差分解;泛化误差
2.5偏差与方差关键词:偏差-方差分解;泛化误差 。偏差-方差分解是解释算法泛化性能的一种重要工具。偏差-方差分解试图对学习算法的期望泛化错误率进行拆解。泛化误差可分解为:偏差,方差与噪声之和。偏差度量了学习算法的期望预测与真实结果的偏离程度,即刻画了学习算法本身的拟合能力 。方差度量了同样大小的训练集的变动所导致的学习性能的变化,即刻画了数据扰动所造成的影响。噪声则表达了在当前任务上任何学习算法所原创 2017-08-23 14:15:53 · 2228 阅读 · 0 评论 -
【机器学习-西瓜书】七、贝叶斯分类器
推荐前期阅读:http://blog.csdn.net/u011995719/article/details/76732663 推荐阅读: 期望损失;条件风险7.1 贝叶斯决策论关键词:期望损失;条件风险;贝叶斯风险;判别模式;生成模式假设对手写体数字进行分类,共计有10种类别标记,即Y={y0,…,y9}Y={y_{0},…,y_{9}}, λij\lambda _{ij}是将一个真实样本标记原创 2017-09-01 15:28:02 · 4747 阅读 · 0 评论 -
【机器学习-西瓜书】八、集成学习:Boosting
推荐阅读: 多样性 ;Boosting;AdaBoost第八章 集成学习8.1个体与集成关键词:集成学习;弱学习器;多样性集成学习(ensemble learning 美[ɑ:nˈsɑ:mbl])通过构建并结合多个学习器(分类器)来完成分类任务。集成学习的一般结构:先产生一组“个体学习器”(individual learner),再用某种策略将它们结合起来。集成学习有两个...原创 2017-09-04 11:34:25 · 3297 阅读 · 0 评论 -
sklearn中SVM的可视化
第一部分:如何绘制三维散点图和分类平面第二部分:sklearn中的SVM参数介绍最近遇到一个简单的二分类任务,本来可用一维的线性分类器来解决,但是为了获得更好的泛化性能,我选取了三个特征,变成了一个三维空间的二分类任务。目的就是使两类样本之间的间隔再大一些,为了满足这种需求,自然而然的想到使用SVM作为分类器,并且该任务是线性可分,自然的选用LinearSVM——核函数为线...原创 2018-07-22 18:32:11 · 28465 阅读 · 17 评论 -
椒盐噪声 Python实现
文章目录椒盐噪声概念椒盐噪声数学定义椒盐噪声代码实现最近碰到一个过拟合问题(感觉在工程里大部分时间都在解决过拟合,只要选正确模型~),想通过增加椒盐噪声来增加训练样本的多样性,对椒盐噪声有了新的认识——原来 椒盐噪声 = 椒噪声 + 盐噪声椒盐噪声概念椒盐噪声又称为脉冲噪声,它是一种随机出现的白点或者黑点,如下图。在机器学习的图像分类任务中,为图像增加椒盐噪声是一种常用的数据增强方法,...原创 2018-10-25 10:03:52 · 16036 阅读 · 4 评论 -
交叉熵代价函数(损失函数)及其求导推导
本文章已收录于:分类: 机器学习(9) 作者同类文章X•检测率,召回率,mAP,ROC•softmax 带 tempret转载 2017-05-19 10:09:34 · 2140 阅读 · 0 评论 -
【机器学习-西瓜书】四、决策树:信息熵;信息增益;增益率;ID3;C4.5
推荐阅读:纯度;信息熵;信息增益关键词: 纯度;信息熵;信息增益;增益率;ID3;C4.5;基尼指数;预剪枝;后剪枝4.1基本流程关键词:决策树(decision tree)。 决策树是一种分类方法,其优点:计算量小,可解释性强,比较适合处理有缺失属性值的样本以及类别不均衡的数据集。缺点:容易过拟合,数值必须是离散型。 一棵决策树包括:根结点,内部结点和叶结点。整个训练过程就是从根结点出发,经原创 2017-08-25 11:28:31 · 4112 阅读 · 0 评论 -
梯度下降优化算法综述(转载)
原文地址:http://www.cnblogs.com/ranjiewen/p/5938944.html对梯度下降进行详细解释,以及总结不同的梯度下降优化算法的优劣,可以作为参考。上两张图,简直不能更直观:直接跳转原文地址吧!转载 2017-07-26 17:04:41 · 406 阅读 · 0 评论 -
【机器学习-西瓜书】八、Bagging;随机森林(RF)
8.3 Bagging 与 随机森林关键词: Bagging ; 随机森林;8.3.1 Bagging上上一节已经提到,集成学习首要任务就是要解决个体学习器 “好而不同”,要让个体学习器尽可能的独立;而完全独立是“不存在”的,所以,设法让个体学习器尽可能具有较大的差异性。上一节提到了采用Boosting算法来串行生成个体学习器,Boosting更关注于减少偏差。而还有一种可并行生成个体学习器的算法,原创 2017-09-05 10:28:54 · 2523 阅读 · 0 评论 -
【机器学习-西瓜书】八、集成学习:结合策略;多样性;总结
推荐阅读: 总结;绝对多数投票法;误差-分歧分解8.4 结合策略关键词: 平均法;投票法;学习法;硬投票;软投票一开始就说到,集成学习有两个关键,第一,个体学习器;第二,结合策略。对于个体学习器,通常分串行(boosting)和并行(bagging)的方法构建。有了一组学习器,如何把它们结合起来使用呢?这就设计到结合策略,通常有:简单平均法;投票法;学习法。8.4.1 平均法 对于数值输出(回归原创 2017-09-06 10:36:32 · 5683 阅读 · 0 评论 -
【机器学习-西瓜书】三、线性回归;对数线性回归
墙裂推荐阅读:y的衍生物 关键词:最小二乘法;正则化;对数线性回归; y的衍生物3.1 基本形式假设样本x有d个属性,线性模型(linear model)试图学得一个通过属性的线性组合来进行预测的函数,即f(x)=w1x1+w2x2+⋅⋯+wdxd+bf(x)=w1x1+w2x2+⋅⋯+wdxd+bf(x)=w_{1}x_{1} + w_{2}x_{2}+\cdot \cdo...原创 2017-08-24 10:38:11 · 14774 阅读 · 0 评论 -
【机器学习-西瓜书】三、逻辑回归(LR);线性判别分析(LDA)
推荐阅读: 逻辑回归(LR);线性判别分析(LDA);类别不平衡(class-imbalance)3.3对数几率回归(logistic regression,逻辑回归)关键词:逻辑回归,对数几率回归(logistic regression)这里先说一下逻辑回归,逻辑斯蒂回归,对数几率回归,其实都是说的一个东西,Logistic Regression。 上一小节讲到,线性模型是让f...原创 2017-08-24 14:49:22 · 5416 阅读 · 0 评论 -
【机器学习-西瓜书】九、聚类:性能度量;距离计算
关键词:性能度量;距离计算;VDM9.1聚类任务聚类任务是无监督学习任务,我们只需要有样本,而不需要有标签。聚类试图将数据集中的样本划分为若干个子集,每个子集称为一个簇(cluster)。簇其实就是类,一簇就是一类。而没有标签,聚类算法把样本划分到不同的簇,算法是没办法告诉我们这些簇具体代表什么意思。所以,聚类算法仅能形成簇的结构,簇所对应的概念语义需要人为的把握和命名。 由于没有类别标签,聚类算原创 2017-09-06 16:31:04 · 2455 阅读 · 0 评论 -
【机器学习-西瓜书】六、支持向量机(SVM):最大间隔;对偶问题;KKT条件
推荐阅读:对偶问题,KKT条件关键词:最大间隔;支持向量;对偶问题;KKT条件;SMO算法6.1 间隔与支持向量关键词:最大间隔;支持向量。 支持向量机(Support Vector Machine,SVM)是常见的二分类器,与逻辑回归不同,SVM 寻找的是使得间隔最大的那一个超平面作为分类器。间隔是什么意思?就是两个异类支持向量(Support Vector)到超平面的距离之和。什么是支持向量呢原创 2017-08-28 11:07:29 · 1844 阅读 · 0 评论 -
【机器学习-西瓜书】六、支持向量机:核技巧;软间隔;惩罚因子C;松弛变量
推荐阅读: 核技巧;惩罚因子C关键词:核技巧;软间隔;惩罚因子C;松弛变量6.3核函数关键词:核函数;核技巧上一节讲到,SVM寻找的是使得间隔最大的那一个超平面作为分类器,这还是一个线性分类器,然而很多情况下是非线性可分的,SVM是如何解决这个问题的呢?SVM是将样本从原始空间映射到一个更高维度的特征空间,使得样本在特征空间中线性可分。例如简单的异或问题在二维空间中线性不可分,但是映射到三维空间就线原创 2017-08-29 10:31:37 · 6283 阅读 · 1 评论 -
【机器学习-西瓜书】九、K-means;聚类算法划分
推荐阅读: 原型聚类;聚类划分;K-means9.4 原型聚类原型聚类亦称基于原型聚类(prototype-based clustering),原型指的是样本空间中具有代表性的点。基于原型的定义是每个对象到该簇的原型的距离比到其他簇的原型的距离更近。在K-means中,聚类中心就是原型,就是具有代表性的点,一个样本距离哪一个原型近,就划分为哪一簇。 常见的原型聚类算法有: K-means;LVQ(原创 2017-09-07 10:35:55 · 2292 阅读 · 0 评论