机器学习
文章平均质量分 50
weberyoung
这个作者很懒,什么都没留下…
展开
-
LOF基于密度的异常检测
可达距离如果p点在k邻域外,那么可达距离就是真实距离,如果在k邻域内,那么就是k-距离。局部可达密度表⽰点p的邻域内其他点的局部可达密度与点p的局部可达密度之⽐的平均数。如果这个⽐值越接近1,说明o的邻域点密度差不多,o可能和邻域同属⼀簇;如果这个⽐值小于1,说明o的密度⾼于其邻域点密度,o为密集点;如果这个⽐值⼤于1,说明o的密度小于其邻域点密度,o可能是异常点。最终得出的LOF数值,就是我们所需要的离群点分数。在sklearn中有LocalOutlierFactor库,可以直接调⽤。原创 2021-01-21 22:09:19 · 622 阅读 · 0 评论 -
异常检测-线性方法
PCA异常检测来自pyod的文档Principal component analysis (PCA) can be used in detecting outliers. PCA is a linear dimensionality reduction using Singular Value Decomposition of the data to project it to a lower dimensional space.In this procedure, covariance matri原创 2021-01-18 20:26:03 · 247 阅读 · 0 评论 -
核函数的通俗解释实例
本来是想了解关于一些MMD的东西。然后里面也用到了核函数这个东西。早先是在SVM解决非线性问题时候接触的,那时候还比较懵懂。核函数到底是啥核函数其实准确来说就是一个内积,相似度,和那个映射函数没有任何关系(因为有时候你根本找不到那个映射函数),即使找到了映射函数也没啥意义。比如说你想把二维映射到三维,自己凑项数恰好凑成了二次多项式函数,最大的意义就是让你看清楚了原理。你的根本目的不就是图个省事在低维空间里面算内积嘛。然后再说一下英文里kernel trick本质是是个tirck就说明他确实不是什么太原创 2020-06-20 10:01:17 · 1001 阅读 · 0 评论 -
Parzen窗估计和k近邻估计区别
这两种都是经典的非参数估计。Parzen窗就是固定一个窗宽h(区间体积V),然后计算一下x的周围点xix_ixi相对于x本身再除以h的距离: x−xih\frac{x-x_i}{h}hx−xi,将其作为自变量代入核函数(窗函数),一般就是矩形窗(h范围内权重为1,范围外权重为0),或者高斯窗(近大远小)。k近邻估计就是固定V内的样本数,改变V的大小来进行趋近。...原创 2020-05-09 11:20:18 · 1662 阅读 · 0 评论 -
论文阅读《生成模型的评估》:A NOTE ON THE EVALUATION OF GENERATIVE MODELS
最近在做GAN相关的东西,导师推荐了一篇生成模型评估的文章,读一读当作笔记。作者:LucasTheis∗ University of T¨ubingen 72072 T¨ubingen, Germany [email protected]¨aronvandenOord∗† Ghent University 9000 Ghent, Belgium aaron.vandenoord@ugen...原创 2020-05-09 10:59:13 · 937 阅读 · 0 评论 -
weka实现TAN(树增强朴素贝叶斯)
1 NaiveBayes的局限朴素贝叶斯成立最关键的假设就是属性之间相互独立。然而,这在现实生活中几乎是不可能的。虽然利用属性之间相互独立的假设,可以获得令人意想不到很好的分类正确率,但是如果知道属性之间的依赖,那岂不是能获得更高的分类正确率。自然而然的想法就是建立属性之间的依赖关系。但是过于复杂的依赖关系将导致计算机复杂度的提升,对于解决实际问题又是不可取的。计算机科学是关于“trad...原创 2020-05-08 10:56:32 · 1640 阅读 · 1 评论 -
机器学习——概率密度估计随笔
概率密度估计笔记概率与统计关系参数估计似然与概率似然函数与概率函数极大似然估计最大后验估计(MAP)贝叶斯估计非参数估计直方图Parzen窗(核密度估计)概率与统计关系先捋清楚概率和统计分别是啥意思。下面的一段话引自LarrB Wasserman的《All of Statistics》,对概率和统计推断的研究内容进行了描述:The basic problem that we studB i...原创 2020-05-07 23:29:19 · 1054 阅读 · 0 评论