![](https://img-blog.csdnimg.cn/20201014180756780.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
基础
文章平均质量分 65
约翰史密斯
这个作者很懒,什么都没留下…
展开
-
Fisher分类器/LDA
最近看特征选择的方法,有一篇文章提到用fisher score来挑选特征然后就顺手回顾一下fisher分类器和LDA先来说LDA,不同于PCA, LDA是有监督的降维,需要类标签它的想法是我们希望投影过后类内样本的距离尽可能小,类间样本的距离尽可能大,所以它想到用一个除式作为目标函数来求解其中分子为样本间距离,分子为类内样本方差之和我们通过拉格朗日乘子展开对w求原创 2017-06-28 15:57:29 · 4094 阅读 · 0 评论 -
决策树小结
近来一些事情没有更博,今儿继续o(* ̄▽ ̄*)ブ想来讲讲决策树,倒并不是因为我对它感兴趣,而是因为想要梳理一下boosting tree原创 2017-08-19 16:08:58 · 307 阅读 · 0 评论 -
海量数据文本相似度解决方式SimHash+分词方法+基于内容推荐算法
之前找实习的时候被问到海量数据文本相似度怎么解决,当时很懵,在面试官的引导下说出了hash table+排序的方法(是的,我总能智障出新花样),当时想的是先做分词再做哈希,然后对标记哈希后的词(这时已是数字)进行排序通过共同的数字来度量它们的好坏。在翻之前的面试笔记突然看到这个,就来网上找找解决方案,发觉hash没有问题,但后面的确是跑偏了。常规的解法是SimHash,通过对分好的词进行h原创 2017-07-19 15:04:16 · 6295 阅读 · 0 评论 -
朴素贝叶斯(离散型+连续型)
讲道理上次写完离散性朴素贝叶斯的实现,这次得写连续型的了,考虑到还有离散性+连续型(考虑到我懒),即数据集里的特征既有离散的特征又有连续的特征这样,就一并一起洗写了吧o(* ̄▽ ̄*)ブ上次讲到了朴素贝叶斯的思想,本质上就是假设数据特征的条件概率是无关的,然后我们通过正态分布去假设每个特征条件概率的分布;于是乎对于连续型的特征我们可以通过它们在训练集上的均值和方差去估算新来样本的条件原创 2017-07-23 11:11:58 · 5949 阅读 · 2 评论 -
朴素贝叶斯(离散型)
你越以为简单的东西,实现起来就不一样了。。。真的是烦。。。朴素贝叶斯的假设异常严格,要求条件概率相互之间独立(实际怎么可能啊┗|`O′|┛即p(x1,x2,x3...,xn|y)=p(x1|y)*p(x2|y)*...*p(xn|y)有了这个假设我们便可以计算出各个类别下的条件概率,再藉由贝叶斯公式推算出p(y|x1,x2,x3,...,xn)的条件概率至于原创 2017-07-17 21:56:20 · 1442 阅读 · 1 评论 -
Logistic回归
Logistic回归啊...这大抵是最受亲民的方法吧...虽然我完全没懂它相比其他分类方法亲民在哪里...看看基础面板:目的:2分类思想:假设后验概率分布满足二项logistic回归模型目标问题:这里N是样本个数,π(x)表示P(Y=1|X),所以上面这个式子就是判别方法在训练集上判断正确的概率(其实就是最大似然估计(づ ̄ 3 ̄)づ),辣么我们的目的是最大化上边这个原创 2017-06-23 21:36:32 · 685 阅读 · 0 评论 -
PCA
PCA的想法其实很简单。目的:投影后的坐标点方差最大(分得最开)目标问题:(这里对X要求零均值,不然方差不是这样求方法:对于目标问题通过拉格朗日乘子法展开,变成求解特征值和特征向量的问题def PCA(x, n=1): x = np.asarray(x, np.float32) mean_data = np.mean(x, axis=0)原创 2017-06-23 09:09:58 · 235 阅读 · 0 评论 -
感知机
考虑到还有一个月要找工作了,所以决定写个博客来抢救一下自己(梳理一下所学的东西)从最简单的感知机开始,感知机说来菜鸡,但在我看来却是集大成的体现(o゜▽゜)o☆(我的理解线性SVM就是它的进化版)先来看看感知机的基础面板:1)目的:分类,二分类;2)损失函数:;3)方法:梯度下降,每次找分错的样本点根据梯度修改权重w至于它的对偶问题,我们假设原创 2017-06-22 14:13:36 · 419 阅读 · 0 评论 -
线性SVM
讲完了感知机,我们就可以看SVM了港真,当时看SVM的时候整个人属于懵比状态(为什么要转化成对偶形式!神经病!(为什么要用SMO求解!神经病!我们先来看看这个神经病在线性模式下的面板属性:目的:二分类思想:最大化间隔(我不仅要分开,我还要分得好!不能随便了事!损失函数:方法:SMO?神经病啊我们先来看这个损失函数前面这撮,好家伙,原创 2017-06-22 14:41:03 · 407 阅读 · 0 评论 -
矩阵范数小结
稍微总结一下矩阵范数的求解来放松一下身心吧~这里总结的矩阵范数主要是F范数、1范数、2范数、核范数以及全变分TV范数与1、2的搭配原创 2017-08-23 19:28:37 · 15277 阅读 · 0 评论