![](https://img-blog.csdnimg.cn/20190929172530853.png?x-oss-process=image/resize,m_fixed,h_224,w_224)
数理统计 & 数据挖掘
文章平均质量分 91
打工人小飞
公众号:机器修行
展开
-
图像质量评估常用评价指标总结
图像质量评估不同于传统意义上的图像识别,其本身是一项主观性较强的任务,无法单纯通过评判准确性来衡量算法模型的性能。其性能好坏通常是评估主观评分和算法评分的相关度,如果两者相关度较高,则说明质量评估算法性能较好,反之则较弱。常用的用于图像质量评估的指标主要有四个:PLCC,SROCC,KROCC 和 RMSE。1. PLCC关于 PLCC(Pearson Linear Correlation Coefficient)皮尔逊线性相关系数的解读,可参考博主另一篇博客:如何通俗易懂地理解皮尔逊相关系数?。需原创 2020-11-01 23:05:30 · 7887 阅读 · 0 评论 -
SQL 知识点回顾总结(二)
本文在上篇博客 SQL 知识点回顾总结(一)的基础上,再结合《SQL 必知必会》一书对 SQL 相关知识点进行了补充整理,供大家参考,也方便自己查阅备忘。在指定一条 order by 子句时,应该保证它是 select 语句中最后一条子句。如果它不是最后的子句,将会出现错误信息。通常,order by 子句中使用的列将是为显示而选择的列。但是实际上并不一定要这样,用非检索的列排序数据是完全合...原创 2020-03-12 20:31:36 · 365 阅读 · 0 评论 -
SQL 知识点回顾总结(一)
很久没有更新博客了,埋头工作有时候都忘了思考,但学习积累的步伐不能停止,今儿个把 SQL 相关知识点重新捡起来,供大家参考,也方便自己查阅备忘。梳理的主线主要基于牛客网《数据库SQL实战》。1. left join, right join 和 inner joinleft join(左联接):返回包括左表中的所有记录和右表中联结字段相等的记录;right join(右联接):返回包括右表中的...原创 2020-02-03 18:00:16 · 1738 阅读 · 0 评论 -
机器学习中如何解决样本不均衡的问题?
很多机器学习算法都有一个基本假设,就是数据分布是均匀的。当我们把这些算法直接应用在实际数据中时,大多数情况下都无法取得理想的结果,因为实际数据往往分布的很不均衡,都存在长尾效应。举个例子,大部分(假如是97%以上)的微博的总互动数(包括被转发,评论和点赞数量)都在0~5之间,交互数多的微博(多于100)非常的少,如果我们去预测一条微博交互数所在档位,预测器只需要把所有微博预测为第一档(0-5)就能解原创 2018-04-14 15:11:21 · 4054 阅读 · 2 评论 -
机器学习中,为何经常要对数据归一化?
机器学习中,为何经常要对数据归一化?原因有二:(1)归一化后加快了梯度下降求最优解的速度;(2)归一化有可能提高精度。为什么归一化能提高梯度下降法求解最优解的速度?假定为预测房价的例子,自变量为面积大小和房间数,因变量为房价。那么可以得到的公式为: y=θ1x1+θ2x2y=θ1x1+θ2x2y=\theta_1x_1+\theta_2x_2 其中,x1x1x_1代表房间数,θ1θ1\...原创 2018-04-07 16:50:49 · 8673 阅读 · 0 评论 -
谈谈判别式模型与生成式模型
判别式模型与生成式模型是机器学习领域中的基本概念,今天将两者的特点总结一下,如下表所示: 对比 判别式模型 生成式模型 特点 寻找不同类别之间的最优分类面,反映异类数据之间的差异 以统计的角度表示数据的分布情况,能够反映同类数据本身的相似度 区别(假如输入特征x,类别标签y) 估计的是条件概率分布:P(y|x) 估计的是联合概率分布 P(x,y) 联系 由判原创 2018-04-06 16:51:44 · 7552 阅读 · 1 评论 -
总结 LR 与 SVM 以及 线性回归的区别与联系
LR 与 SVM 的联系与区别相同点LR 与 SVM 都是分类算法;LR 与 SVM 都是监督学习算法;LR 与 SVM 都是判别模型;关于判别模型与生成模型的详细概念与理解,笔者会在下篇博文给出,这里不详述。如果不考虑核函数,LR 与 SVM 都是线性分类算法,也就是说他们的分类决策面都是线性的这里需要说明的是,LR 也是可以用核函数的,因在 LR 算法里,每个样本点都必须参与决策面的计算原创 2018-04-05 15:42:49 · 3357 阅读 · 3 评论 -
总结 Logistic 回归与 Softmax 回归联系与区别
Logistic 回归与 Softmax 回归是两个基础的分类模型,虽然听名字像是回归模型,实际上并非如此。Logistic 回归,Softmax 回归以及线性回归都是基于线性模型。其实 Softmax 就是 Logistic 的推广,Logistic 一般用于二分类,而softmax 是多分类。逻辑回归的激活函数是 sigmoid 函数,可理解成一个被 sigmoid 函数归一化后的线性回归,si原创 2018-04-03 13:27:59 · 12251 阅读 · 6 评论 -
浅谈 SVM
SVM,全称是 support vector machine,中文名叫支持向量机。SVM 是一个面向数据的分类算法,它的目标是为确定一个分类超平面,从而将不同的数据分隔开。 如上图所示,w⃗ \vec{w} 为分割线(红线)的法向量,对平面上的某个样本点(向量 u⃗ \vec{u}),如果满足: w⃗ ⋅u⃗ ≥c时,则该样本属于正样本.\vec{w}\cdot\vec{u}\geq c 时原创 2018-03-25 17:11:33 · 588 阅读 · 0 评论 -
BP 神经网络中的基础算法之一 —— 最小二乘法(LS 算法)
最小二乘法(LS 算法)是统计分析中最常用的逼近计算的一种算法,其交替计算结果使得最终结果尽可能地逼近真实结果。LS 算法是一种数学优化技术,也是一种机器学习常用算法。它通过最小化误差的平方和寻找数据的最佳函数匹配。利用最小二乘法可以简便地求得未知的数据,并使得这些求得的数据与实际数据之间误差的平方和最小。最小二乘法还可用于曲线拟合,其他一些优化问题也可通过最小化能量或最大化熵用最小二乘法来表达。若原创 2018-02-06 16:26:42 · 6804 阅读 · 0 评论 -
决策树之基 —— ID3 算法
决策树用来预测的是一个固定的对象,从根到叶节点的一条特定路线就是一个分类规则,决定这一个分类算法和结果。 决策树的生成算法是从根部开始,输入一系列带有标签分类的示例(向量),从而构造出一系列的决策节点。其节点又称为逻辑判断,表示该属性的某个分支(属性),供下一步继续判断,一般有几个分支就有几条有向的线作为类别标记。决策树的理论基础——信息熵信息熵指的是对事件中不确定的信息的度量。在一原创 2018-01-29 17:53:55 · 842 阅读 · 0 评论 -
关于显著性检验,有你想要的!
何为显著性检验?显著性检验(significance test)作为判断两个乃至多个数据集之间是否存在差异的方法被广泛应用于各个科研领域。在统计学中,显著性检验是“统计假设检验”(Statistical hypothesis testing)的一种,显著性检验是用于检测科学实验中实验组与对照组之间是否有差异以及差异是否显著的办法。“无假设,不检验”。用更通俗的话来说就是要先对科研数据做一个假设,然后原创 2017-12-14 14:21:05 · 25711 阅读 · 1 评论 -
pytorch 模拟关系拟合——回归
本次用 pytroch 来实现一个简单的回归分析,也借此机会来熟悉 pytorch 的一些基本操作。1. 建立数据集import torchfrom torch.autograd import Variableimport matplotlib.pyplot as plt# torch.linspace(-1,1,100)表示返回一个一维张量,包含在区间 -1到1 上均匀间隔的100个点;#原创 2017-12-06 16:52:53 · 2257 阅读 · 0 评论 -
主成分分析(PCA)一次讲个够
PCA 简介多元统计分析中普遍存在的困难中,有一个困难是多元数据的可视化。matlab 中的 plot 可以显示两个变量之间的关系,plot3 和surf 可以显示三维的不同。但是当有多于3个变量时,要可视化变量之间的关系就很困难了。幸运的是,在一组多变量的数据中,很多变量常常是一起变动的。一个原因是很多变量是同一个驱动影响的的结果。在很多系统中,只有少数几个这样的驱动,但是多余的仪器使我们测量了很原创 2017-11-29 11:31:46 · 56701 阅读 · 6 评论 -
5 分钟带你弄懂 k-means 聚类
聚类与分类的区别分类:类别是已知的,通过对已知分类的数据进行训练和学习,找到这些不同类的特征,再对未分类的数据进行分类。属于监督学习。聚类:事先不知道数据会分为几类,通过聚类分析将数据聚合成几个群体。聚类不需要对数据进行训练和学习。属于无监督学习。关于监督学习和无监督学习,这里给一个简单的介绍:是否有监督,就看输入数据是否有标签,输入数据有标签,则为有监督学习,否则为无监督学习。更详尽的解释会在后续原创 2017-11-08 16:16:23 · 114421 阅读 · 83 评论 -
对比欧氏距离与余弦相似度
欧式距离欧氏距离就是我们平常所说的距离,如果是平面上的两个点 A(x1,y1)A(x_1,y_1) 和 B(x2,y2)B(x_2,y_2) ,那么 A 与 B 的欧式距离就是 (x1−x2)2+(y1−y2)2‾‾‾‾‾‾‾‾‾‾‾‾‾‾‾‾‾‾‾‾‾√\sqrt{(x_1-x_2)^2+(y_1-y_2)^2} ;如果是三维空间中的两个点 A(x1,y1,z1)A(x_1,y_1,z_1) 和原创 2017-11-07 16:48:20 · 21400 阅读 · 3 评论 -
如何通俗易懂地理解皮尔逊相关系数?
要理解 Pearson 相关系数,首先要理解协方差(Covariance)。协方差表示两个变量 X,Y 间相互关系的数字特征,其计算公式为:COV(X,Y)=1n−1∑n1(Xi−X⎯⎯⎯)(Yi−Y⎯⎯⎯)COV(X,Y)=\frac{1}{n-1}\sum_1^n(X_i-\overline X)(Y_i-\overline Y)当 Y = X 时,即与方差相同。当变量 X,Y 的变化趋势一致时原创 2017-11-06 11:45:57 · 71021 阅读 · 6 评论 -
常用的数量统计量的计算及统计意义
数量统计量是只适合数量类型数据的统计量,使我们最常见的统计量。笔者之前对资料特征数的计算作了简单地介绍,详情可跳转至 资料特征数的计算,本片博客力求全面和简洁易懂。对于数量类型的数据样本 X1,X2,⋯,Xn,X_1, X_2, \cdots ,X_n ,其数量统计量定义如下:均值(Mean)X⎯⎯⎯=1n∑n1Xi\overline X = \frac{1}{n}\sum_1^nX_i 很简单原创 2017-11-02 20:20:17 · 9118 阅读 · 0 评论 -
过拟合与欠拟合简要总结
在做深度学习实验时,有时候会出现实现结果令人寻味的现象,例如训练处的模型在训练集上的效果很好,而在测试集上效果较差等等。过拟合当某个模型过度的学习训练数据中的细节和噪音,以至于模型在新的数据上表现很差,我们称过拟合发生了。这意味着训练数据中的噪音或者随机波动也被当做概念被模型学习了。而问题就在于这些概念不适用于新的数据,从而导致模型泛化性能的变差。简单理解就是训练样本的得到的输出和期望输出基本一致,原创 2017-06-08 21:49:55 · 9447 阅读 · 0 评论 -
vcf 格式文件详解
Vcf文件格式是GATK钟爱的表示遗传变异的一种文件格式。就拿GATK给出的vcf例子说明吧,下面这个文件只表示了一个完整vcf文件的前几个SNP。看上去确实有点复杂,那就把它分为两部分看吧,第一部分把他归为说明文件,就是每一列最前面有2个#符号的那些列所提到的就是为了解释下面“正文”INFO列中可能要出现的一些tags和和FORMAT列中对基因型的表示。第二部分可以归为下面的内容:#CHROM原创 2016-07-12 15:01:36 · 12200 阅读 · 0 评论 -
常用的数据标准化方法
数据的标准化(normalization)是将数据按照一定规则缩放,使之落入一个小的特定区间。这样去除数据的单位限制,将其转化为无量纲的纯数值,便于不同单位或量级的指标能够进行比较和加权。其中最典型的就是0-1标准化和Z标准化,当然,也有一些其他的标准化方法,用在不同场景,这里主要介绍几种常用的方法。1、Min-Max标准化(Min-Max normalization)也称离差标准化,是对原始数据的原创 2016-06-13 14:46:39 · 27860 阅读 · 0 评论 -
资料特征数的计算
变量的分布具有两个明显的特征:集中性和离散型。为了反映变量分布的这两个基本性质,必须计算它们的特征数。反映集中性的特征数是平均数,其中应用最普遍的是算术平均数。反映离散性的特征数为变异数,其中最为常用的是标准差,它是变量的变异程度的度量。算术平均数 对于一个具有N个观测值的有限总体,其观测值为x1,x2,x3,…,xNx_1,x_2,x_3,…,x_N,则该总体算术平均数为μ=x1+x2+…+xN原创 2016-02-29 15:36:27 · 1949 阅读 · 0 评论 -
中位数、众数和均值的关系
中位数、众数和均值都是描述数据集中趋势的统计量,他们各有特点。例如,对于某种商品的各种售价,中位数处在中间的价格,大于和小于中位数的价格各为一半;众数为众多价格中出现频数最多的那个价格;而均值在大部分情况下,数值上不会等于其中的任何一个价格,但是将所有的价格都放在数轴上,均值刚好位于平衡点,即在所有价格的重心上,该点两侧的力矩是相等的,恰好使数轴保持平衡。当数据为单峰的对称分布时,其中位数、众数与均原创 2016-01-23 16:35:44 · 21070 阅读 · 0 评论 -
使用const定义常量,inline定义小型函数
使用 const 而不是 #define 来定义常量C使用预处理器来创建常量的符号名称:#define MAX_LENGTH 100而C++最好在变量申明使用限定符 const:const int MAX_LENGTH = 100;使用const的方法有很多优越性。首先,显示指定类型。使用#define时,必须在数字后面加各种后缀来指出除 char、int 或 double 之外的类型。例如,使用1原创 2016-01-22 11:28:21 · 1655 阅读 · 3 评论 -
C++实现读取文本文件数据到vector中
如题,要将如下文本文件读进vector中: #include <iostream>using namespace std;#include <cmath>#include <vector>#include <fstream>//将文本文件中得数据读入vector中,并返回一个vector。vector<int> *InputData_To_Vector(){ vector<in原创 2016-01-21 10:04:14 · 27692 阅读 · 1 评论