数据挖掘
oulittle
这个作者很懒,什么都没留下…
展开
-
距离度量
在机器学习算法中,常根据样本间的相似度或距离来判断样本的归属或样本之间的相似性,对于不同的问题,具体哪种相似度/距离更适合取决于应用问题的特性。1、闵可夫斯基距离:定义1、给定样本集合X,X是n维实数向量空间 中点的集合,其中 ,样本 与样本 的闵科夫斯基距离定义为: 2、欧式距离:当闵可夫斯基距离中的p=2时,称为欧氏距离,即 ...原创 2019-12-07 00:23:41 · 305 阅读 · 0 评论 -
线代知识点
一、行列式n阶行列式: 这里表示对所有n级排列求和,表示排列的逆序数。每项由不同行、不同列的n个元素乘积组成,没项的正负号取决于 逆序数。行列式性质:1、行列互换,其值不变2、行列式中某行/列元素全为0,则行列式为03、行列式中某行/列元素有公因子k(k不为0),则k可提到行或列外面 4、行列式某行/列元素均是两个...原创 2019-12-07 00:10:28 · 5121 阅读 · 0 评论 -
统计学基本极限定理
一、切比雪夫不等式设随机变量X具有数学期望,方差 , 则对任意正数 ε,不等式 成立。切比雪夫不等式须满足E(X)和D(X)存在且有限切比雪夫定理大意是:任意一个数据集中,位于其平均数m个标准差范围内的比例(或部分)总是至少为:,其中m为大于1的任意正数。对于m=2,m=3和m=5有如下结果:所有数据中,至少有3/4(或75%)的数据位于平均数2...原创 2019-12-06 23:12:00 · 1535 阅读 · 0 评论 -
条件概率及与其有关的三个概率公式:乘法公式、全概率公式、贝叶斯公式
1、条件概率设A、B为任意两个事件,若P(A)>0,称在已知事件A发生的条件下,事件B发生的概率为条件概率,记为P(B|A) 理解为:条件概率就是在附加了一定的条件之下所计算的概率,当我们说到‘条件概率’时,总是指另外附加的条件,其形式可归结为“已知某事已经发生了”2、乘法公式如果P(A)>0,则 P(AB) = P(A)P(B|A)一般地,如果 ,则...原创 2019-12-06 22:47:08 · 10447 阅读 · 0 评论 -
one-hot和tf-idf的理解
one-hot:对每个特征进行普通的数字编码。对于每个特征有多少状态,就用多少状态码来表示,one-hot编码保证每个样本的单个特征只有一位处于状态1,其他都是状态0。对于2、3、4种状态,可以得到以下的表示:所以可以得到sample_1的特征向量为:【0.1.1.0.0.0.1.0.0】 sample_4:【1.0.0.0.0.1.0.0.1】one-hot在文本特征提取上属...转载 2019-01-08 11:03:33 · 609 阅读 · 0 评论 -
判别式模型与生成式模型的区别
产生式模型(Generative Model)与判别式模型(Discrimitive Model)是分类器常遇到的概念,它们的区别在于:对于输入x,类别标签y:产生式模型估计它们的联合概率分布P(x,y)判别式模型估计条件概率分布P(y|x)产生式模型可以根据贝叶斯公式得到判别式模型,但反过来不行。判别式模型常见的主要有: Logistic Regression ...转载 2019-12-06 19:01:32 · 96 阅读 · 0 评论 -
textRank算法
textRank算法思想基于谷歌的pageRank算法,一种用于文本的基于图的排序算法,用于为文本生成关键字和摘要。pageRank用来计算网页的重要性,整个网络的所有网页可以看作是一张有向图,网页作为节点,如果A网页中存在B网页的链接,那么一条有向边从A节点(网页)指向B节点(网页)。假设形成这样一张图,可以用矩阵来表示这张图的链入链出的关系: (看起来成了马尔可夫转移矩阵...原创 2019-01-10 19:16:42 · 851 阅读 · 0 评论 -
k-means
在机器学习算法中,聚类算法不同于分类和回归算法需要标注数据训练学习,聚类是无监督学习算法,根据‘物以类聚,人以群分’的思想,将未标注的数据中相似的数据分到同一个簇中。 k-means算法是聚类算法的一种,算法简单、高效,易于理解,所以有着很广泛的应用。按字面意思理解,k:数据聚类为k个簇,means:每个数据簇中的均值作为该簇的中心(质心)。k-means算法...原创 2019-01-11 20:01:46 · 454 阅读 · 0 评论 -
损失函数
损失函数(Loss Function)的基本概念是定义在单个样本上的,是指一个样本的误差。代价函数(Cost Function)是定义在整个训练集上的,是所有样本误差的平均,也就是所有损失函数值的平均。目标函数(Object Function)是指最终需要优化的函数,一般来说是经验风险+结构风险,即:代价函数+正则化项。更多的时候我们所说的损失函数就是代价函数,这关系不大,因为从它们...原创 2019-12-06 17:55:18 · 441 阅读 · 0 评论