机器学习统计模型
YangHongChao001
机器学习,深度学习,算法工程师
展开
-
线性模型
线性模型常见的种类:1.1 普通线性模型: y = w x + b , 让L(f) = (yi^ - yi)^2 最小,的w 和b 关于上面的L(f)求最小值可以用梯度下降法来求解数值解,在使用梯度下降法时,要注意特征的归一化,(这也是许多机器学习都要注意的),特征归一化有两个好处:(1)提升模型的收敛速度,比如两个特征x1 和x2,x1的取值为0-200之间,而x...原创 2018-03-18 17:09:49 · 696 阅读 · 0 评论 -
auc曲线知识总结
一、roc曲线1、roc曲线:接收者操作特征(receiveroperating characteristic),roc曲线上每个点反映着对同一信号刺激的感受性。横轴:负正类率(false postive rate FPR)特异度,划分实例中所有负例占所有负例的比例;(1-Specificity)纵轴:真正类率(true postive rate TPR)灵敏度,Sensitivity(正类覆盖率...原创 2018-03-18 17:15:27 · 6595 阅读 · 0 评论 -
KNN邻近算法
1,综述 1.1 Cover和Hart 1968年提出 1.2 Classification算法 1.3 输入基于实例的学习(instance——based learnin), 懒惰学习(lazy learnin) 2,算法详述 2.1 步骤 为了判断未知实例的类别,以所有已知实例的特例作为参照。 (1)选择参数k ...原创 2018-03-18 17:17:24 · 477 阅读 · 0 评论 -
K-means
1.归类: 聚类 (clustering)属于非监督学习(UNsupervised learning) 无类别标记(class label)2. K-means算法: 2.1 clustering中的经典算法,数据挖掘十大经典算法之一 2.2 算法接受参数K,然后将事先输入的n个对象划分为k个聚类以便使得所获得的聚类满足:同一聚类对象的相似度(大多数时候为距离的远近)较高,...原创 2018-03-18 17:18:02 · 175 阅读 · 0 评论 -
聚类算法
假设有N个待聚类的样本,对于层次聚类来说,步骤: 1, (初始化)把每个样本归为一类,计算两个类之间的距离,也就是样本与样本的相似度; 2,寻找各个类之间最近的两个类,把他们归为一类(这样类的总数就少了一个) 3,重新计算生成的这个类与各个旧类之间的相似度; 4,重复2和3直到所有样本点都归为一类,结束 整个聚类过程其实是建立了一棵树,在建立的过程中,可以...原创 2018-03-18 17:19:04 · 284 阅读 · 0 评论 -
决策树
机器学习中分类和预测算法的评估: 准学率速度强壮型可规模性可解释性 1, 什么是决策树/判定树 判定树是一个类似于流程图的树结构:其中,每个内部结点表示一个属性上的测试,每个分支代表一个属性输出,而每个树叶结点代表类获类分布。树的最顶层为根结点。2, 机器学习中分类方法中的一个重要算法3,构造决策树的基本算法 3.1 熵的概念: 信息和抽象,如何度...原创 2018-03-18 17:19:49 · 210 阅读 · 0 评论 -
距离的度量方法
所列的距离公式列表和代码如下:闵可夫斯基距离(Minkowski Distance)欧氏距离(Euclidean Distance)曼哈顿距离(Manhattan Distance)切比雪夫距离(Chebyshev Distance)夹角余弦(Cosine)汉明距离(Hamming distance)杰卡德相似系数(Jaccard similarity coefficient)读者可根据自己需求有...原创 2018-03-18 17:24:36 · 442 阅读 · 0 评论 -
信息熵的相关概念和在机器学习中的应用
主要整理自维基百科,添加了一些在机器学习中的应用。熵:在信息论中,熵(英语:entropy)是接收的每条消息中包含的信息的平均量,又被称为信息熵、信源熵、平均自信息量。主要衡量不确定性的度量,越随机的信息熵越大,想法来源于不可能发生的事发生时会提供更多的信息。所以信息熵定义为概率分布的对数的相反数有这方面的体现。随机变量的熵值定义为:.注:此处E为期望函数,为概率质量...原创 2019-05-01 22:03:25 · 2773 阅读 · 0 评论 -
生成模型和判别模型
参考李航《统计机器学习》监督学习常见的问题是学习一个模型对于输入空间的变量x预测其在输出空间对应的变量y。这个模型一般表示为或者条件概率分布:.依据学习的目标是的联合概率还是条件概率或判别函数将模型分为生成模型和判别模型。这种监督学习的方法又称为生成方法和判别方法。判别模型:判别模型是由数据直接学习决策函数或者条件概率分布作为要学习的模型。判别模型关系对于给定的要得到...原创 2019-04-30 23:12:55 · 282 阅读 · 0 评论