统计学习方法
文章平均质量分 81
旺旺棒棒冰
做正确的事,正确得做事
展开
-
简单树匹配算法STM-实践篇
计算网页结构相似度代码:from __future__ import print_functionfrom __future__ import divisionfrom __future__ import absolute_importimport urllib.requestfrom bs4 import BeautifulSoupdef getNodeNum(root): if root is None: return 0 elif not hasat原创 2021-07-26 13:32:25 · 983 阅读 · 0 评论 -
回归任务中的评价指标MAE,MSE,RMSE,R-Squared
转自博客。仅供自己学习使用,如有侵权,请联系删除分类任务的评价指标有准确率,P值,R值,F1值,而回归任务的评价指标就是MSE,RMSE,MAE、R-SquaredMSE均方误差MSE是真实值与预测值的差值的平方和然后求平均。通过平方的形式便于求导,所以常被用作线性回归的损失函数。MSE=1m∑i=1m(yi−y^i)2MSE=\frac{1}{m} \sum_{i=1}^{m}\left(y_{i}-\hat{y}_{i}\right)^{2}MSE=m1i=1∑m(yi−y^i)2R转载 2021-07-24 10:11:53 · 3112 阅读 · 0 评论 -
合页损失函数
这里介绍得是统计学习方法中提到的二分类合页损失函数hinge loss对于包含NNN个样本的数据D(x,y)D(x,y)D(x,y)。xxx代表样本输入,yyy代表真实的标签,yyy中元素的值属于{1,−1}\{1,-1\}{1,−1},分别表示正类与负类。 第nnn个样本对应的losslossloss,如下:ln=max(0,1−y(wxn+b))l_{n}=max(0,1-y(wx_{n}+b))ln=max(0,1−y(wxn+b))当1−y(wxn+b)<01-y(wx_{n}+b原创 2021-07-12 19:23:36 · 1177 阅读 · 0 评论 -
Distance Metric Learning
图片来自论文Improved Deep Metric Learning with Multi-class N-pair Loss ObjectiveDistance Metric Learning学习的相对距离,而不在乎实际的值。包含如图所示的两种形式,xxx是代表输入样本,yyy是代表对应的标签,fff是代表模型:(1)contrastive loss:输入是两个(组)样本,计算loss时,需要区分两个样本是否属于同类,若属于同类,loss等于距离的值,若不属于同类并且距离大于m,loss的值忽略不.原创 2021-07-12 18:58:02 · 380 阅读 · 0 评论 -
分类指标之p值,r值,F1值,微平均和宏平均
假设有12个样本可被分为A,B, C 三个类别,某个分类器的结果如下:真实预测ABAAAAACBBBBBABCCCCCCACCP值精确率, 每个类别都有自己的P值预测为A类的样本中,实际是A类的样本占比:PA=24=12P_{A}=\frac 2 4=\frac 1 2PA=42=21预测为B类的样本中,实际是B类的样本占比:PB=23P_{B}=\frac 2 3PB=3原创 2021-07-05 16:35:30 · 2802 阅读 · 0 评论 -
ROC与AUC
用于衡量二分类模型的指标对于某个二分类模型,设定相应的分类阈值,可得预测分类结果,统计得到如下混淆矩阵:预测为正类预测为负类实际为正类TPFN实际为负类FPTN真正例率TPR,同召回率:TPTP+FN\frac {TP} {TP+FN} TP+FNTP假正例率FPR:FPFP+TN\frac {FP} {FP+TN}FP+TNFPROCROC曲线横坐标是假正例率FPR,纵坐标是真正例率TPR。曲线中的每个点对用于不同的分类阈值。ROC曲线越靠近原创 2021-07-05 15:53:42 · 337 阅读 · 0 评论 -
信息熵,条件熵,相对熵,交叉熵
转自详解机器学习中的熵、条件熵、相对熵和交叉熵信息熵信息是一个很抽象的概念,百度百科中信息的定义:指音讯、消息、通讯系统传输和处理的对象,泛指人类社会传播的一切内容那信息可以被量化么?可以的!香农提出的“信息熵”概念解决了这一问题。一条信息的信息量大小和它的不确定性有直接的关系。当我们需要搞清楚一件非常非常不确定的事,或者是我们一无所知的事,就需要了解大量的信息。相反,如果我们对某件事已经有了较多的了解,我们就不需要太多的信息就能把它搞清楚。 信息量的度量就等于不确定性的多少考虑一个离散的随机转载 2021-07-04 22:56:16 · 288 阅读 · 0 评论 -
概率图模型(一)
转自知乎问题 概率图模型(PGM)有必要系统地学习一下吗? 最高赞回答作者:谢澎涛链接:https://www.zhihu.com/question/23255632/answer/56330768来源:知乎概率图模型(Probabilistic Graphical Model, PGM)以概率论及图论为基础,采用图论中的图结构表示概率模型。重要性PGM是将人工智能的研究热点从传统AI(如逻辑、推理、知识表示)转向机器学习的重要工作,在实际中(包括工业界)的应用非常广泛与成功。例如,隐马尔可转载 2021-06-14 15:35:46 · 213 阅读 · 0 评论 -
EM算法(二)
期望极大(EM)算法:是一种迭代算法,用于含有隐变量(latent variable)的概率模型参数的极大似然估计或者极大后验概率估计。EM算法每次迭代有两步组成:E步求期望;M步求极大。原创 2021-06-10 15:41:14 · 171 阅读 · 0 评论 -
EM算法(一)
期望极大(EM)算法:是一种迭代算法,用于含有隐变量的概率模型参数的极大似然估计或者极大后验概率估计。每次迭代有两步组成:E步,求期望;M步,求极大。原创 2021-06-07 13:21:35 · 197 阅读 · 0 评论 -
统计学习方法第15章-奇异值分解SVD
定义矩阵的奇异值分解(SVD)是指,将一个非零的 m×nm \times nm×n 实矩阵 A,A∈Rm×nA, A \in \mathbf{R}^{m \times n}A,A∈Rm×n, 表示为以下三个实矩阵乘积形式的运算, 即进行矩阵的因子分解:A=UΣVTA=U \Sigma V^{\mathrm{T}} A=UΣVT其中,UUU 是 mmm 阶正交矩阵, VVV 是 nnn 阶正交矩阵,Σ\SigmaΣ 是由降序排列的非负的对角线元素组成的 m×nm \times nm×n 矩形对角矩阵,转载 2021-06-07 10:28:15 · 338 阅读 · 0 评论 -
数据清洗
缺失值处理:删除记录,数据插补,不处理数据插补:1.根据属性值的类型,用该属性值的平均数、中位数、众数进行插补2.将缺失值的属性值用用一个固定值表示3.在记录中找到与缺失样本最接近的样本的属性值4.用机器学习的方法预测缺失值5.插值法:利用已知点建立合适的插值函数,然后求得未知点对应的值(拉格朗日插值法,牛顿插值法)异常值处理:1.删除含有异常值的记录2.视为缺失值,用缺失值的方法进行处理3.平均...转载 2018-04-01 21:02:39 · 270 阅读 · 0 评论 -
语言模型之英文数据预处理
在做语言模型的时候需要对文本做一些预处理: 1.句子切分 可以按照句号,问号,感叹号,进行切分。然后从未到头扫描一遍,将不是以大写字母开头的拼接到上一句上(对于类似于S. M这类的人名无法处理)。 标好句子的开始和结束。 text=re.sub('\. ',' SSS ',text) text=re.sub('! ',' SSS ',text) text=re.sub('原创 2017-11-16 08:56:09 · 2684 阅读 · 0 评论 -
基于不确定性主动学习的基本过程
主动学习(Active learning):主动学习也是一种监督学习与传统监督学习不同的是,传统监督学习直接利用外界提供的已标注样例进行训练,即训练集合由已标注样例构成而主动学习则主动选择所需要的样例,从大量无类别样例中挑选认为最有价值的样例进行标注,标注后的样例加入到训练集,学习过程同传统监督学习一样,都是在有标注的训练集基础上生成分类器模型。随后,主动学习会将模型作为指导,挑选下次的样例来提高分转载 2017-12-03 11:49:12 · 4166 阅读 · 0 评论 -
输入法 原理
转自 《电脑爱好者》2014第9期 妙手生花的背后——输入法原理解密 http://m.cfan.com.cn/article/65 文字输入过程主要是: 输入编码,然后根据编码选择所需字符的过程。 因此Windows系统下汉字输入法实际就是:将输入的标准ASCII字符串(英文字符),按照一定的(编码规则)转换为汉字或词组。在将英文字符转换成汉字的过程中,码表文件(字库)起到了关键作用转载 2017-12-02 11:47:51 · 4280 阅读 · 0 评论 -
统计学习方法 第八章总结
集成方法主要包括:bagging和boosting思想其中boosting的思想是:通过改变训练样本的权重(即改变训练数据的概率分布),学习多个分类器,并将这些分类器进行线性组合,提高分类的性能。在概率近似正确(PAC)学习的框架下,一个概念是强可学习的充分必要条件是这个概念是弱可学习的。(不懂)adaboost:解决了两个问题:每一轮,即每一个分类器,如何改变训练数据的权值或概率分布:提高前一轮原创 2017-11-03 10:56:31 · 477 阅读 · 0 评论