![](https://img-blog.csdnimg.cn/20201014180756916.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
数据挖掘
文章平均质量分 61
adminabcd
爱生活,爱自己
展开
-
损失函数
今天看一篇论文时,碰到hinge loss,不知道是个什么东西,于是上网查了下,找到了一篇介绍loss function的英文文献(http://www.ics.uci.edu/~dramanan/teaching/ics273a_winter08/lectures/lecture14.pdf),还不错,于是决定翻译下,方便以后用。1.损失函数的形式定义 由式(14.1)可知损失函数包括两部分:损翻译 2015-06-02 11:11:49 · 1319 阅读 · 1 评论 -
关于SVM
1.SVM相关知识首先我们知道线性SVM是这样一个分类器,它寻找具有最大边缘的超平面。考虑一个包含N个训练样本的二元分类问题,类标签为-1或者1。 SVM分类器的决策边界为:, 即为下图虚线所示: 其中w的方向与虚线垂直(可证明)。通过调整决策边界的参数w和b,得到两个超平面。 其中在虚线上方且与虚线平行的超平面L1为: 其中在虚线下方且与虚线平行的超平面L2为: 令x原创 2015-05-31 22:15:32 · 1341 阅读 · 0 评论 -
可视化学习之百度echarts工具(2)
柱状图与折线图学习事例<!DOCTYPE html><html lang="en"><head> <meta charset="utf-8"> <title>高考2006-2014</title></head><body> <!--准备一个高为500px 宽为浏览器页面的大小的图标容器的, 也可以设为指定值 如:height:500px;width:800px; --原创 2015-10-22 17:44:15 · 1630 阅读 · 0 评论 -
可视化学习之百度echarts工具(1)
ECharts,缩写来自Enterprise Charts,商业级数据图表,它是一个纯Javascript的图表库,我们在使用过程中只需要引入该图表库,使用它提供的一些组件,加上自己的数据,就能用了。我在学习时选择它推荐的“模块化单文件引入”方法引入ECharts图表库,详细过程如下:原创 2015-10-22 17:16:06 · 1262 阅读 · 0 评论 -
参数估计
【概念】参数估计包括点估计和区间估计: 点估计——估计未知参数的值 区间估计——根据样本构造出适当的空间,使它以一定的概率包含未知参数【参数估计与matlab实现】下面主要阐述正态总体的参数估计:clear;clc;mu=10; %样本均值sigm=2; %样本方差m=50; %样本数n=1000; %计算置信区间的真实覆盖率的模拟次数x=normrnd(mu,sigm,m原创 2015-07-01 17:55:52 · 2278 阅读 · 0 评论 -
分布的拟合和检验
【分布的拟合】把样本的分布函数(也称为“经验分布函数”),与某种理论的分布函数(如正态分布)叠放在一起,进行比较。 例如:score = xlsread('examp02_14.xls','Sheet1','G2:G52');% 去掉总成绩中的0,即缺考成绩score = score(score > 0); %样本figure; % 新建图形窗口% 绘制经验分布函数图,并返回图形原创 2015-07-02 16:57:36 · 13535 阅读 · 2 评论 -
假设检验——正态总体参数的检验(u检验,t检验,卡方检验,f检验)
【—–总体标准差已知时的单个正态总体均值的U检验——】(1)分析:建立如下假设 (2)matlab进行检验:% 调用ztest函数作总体均值的双侧检验,% 返回变量h,检验的p值,均值的置信区间muci,检验统计量的观测值zval[h,p,muci,zval] = ztest(x,100,2,0.05) 结果: 由h=1,p=0.0282<0.05拒绝原假设 且由置信区间的两个置信原创 2015-07-01 22:17:57 · 18576 阅读 · 0 评论 -
关于PCA
PCA的理解刚开始听到PCA时,只知道它讲的是对数据进行降维,还以为是直接去掉一些数据特征;这几天看了下网上各位牛人的博客(http://blog.csdn.net/abcjennifer/article/details/8002329以及http://blog.csdn.net/watkinsong/article/details/8234766)后,我才知道原来它只是把原来的数据映射到新的空间中原创 2015-06-01 21:33:22 · 1156 阅读 · 0 评论 -
范数、奇异值
【范数】 格式:n=norm(A,p) 功能:norm函数可计算几种不同类型的矩阵范数,根据p的不同可得到不同的范数 以下是Matlab中help norm 的解释 NORM Matrix or vector norm. For matrices… NORM(X) is the largest singular value of X, max(svd(X)).原创 2015-07-08 16:44:00 · 2466 阅读 · 0 评论 -
Precision/Recall和ROC曲线
【Precision/Recall的基本概念】转载自http://www.zhizhihu.com/html/y2010/2137.html。查准率和查全率是信息检索效率评价的两个定量指标,不仅可以用来评价每次检索的准确性和全面性,也是在信息检索系统评价中衡量系统检索性能的重要方面。(1)查准率(Precision ratio,简称为P),是指检出的相关文献数占检出文献总数的百分比。查准率反映检索准转载 2015-06-12 20:30:34 · 11900 阅读 · 0 评论 -
Precision/Recall和ROC曲线与分类
【混淆矩阵与Precision/Recall和ROC曲线的关系】首先我们引入混淆矩阵: 当我们对样本进行分类时,会分成正例样本(记为1)和负例样本(记为0),根据分类结果与原始分类,可以计算出相应的混淆矩阵。那么则有:Precision(pre)=true positive rate=tp/(tp+fp)Recall(sen)=tp/(tp+fn)false positive rate=fp/原创 2015-06-12 21:29:58 · 1219 阅读 · 0 评论 -
条件数(condition number)
In the field of numerical analysis, the condition number of a function with respect to an argument measures how much the output value of the function can change for a small change in the input argument原创 2015-06-24 11:13:34 · 16667 阅读 · 0 评论 -
假设检验
关于假设检验假设检验(Hypothesis Testing),或者叫做显著性检验(Significance Testing)是数理统计学中根据一定假设条件由样本推断总体的一种方法。其基本原理是先对总体的特征作出某种假设,然后通过抽样研究的统计推理,对此假设应该被拒绝还是接受作出推断。既然以假设为前提,那么在进行检验前需要提出相应的假设:H0:原假设或零假设(null hypothesis),即需要去原创 2015-06-05 18:28:03 · 900 阅读 · 0 评论 -
数据挖掘——聚类算法kmeans整理
【 kmeans算法原理】随机选取k个中心点遍历所有数据,将每个数据划分到最近的中心点中(根据距离的大小进行划分,即计算每个样本点到所有中心点的距离,选择距离最小的那个)计算每个聚类的平均值,并作为新的中心点重复2-3,直到这k个中心点不再变化(收敛了),或迭代次数达到规定值 matlab函数调用:[IDX,C,sumd,D] = kmeans(X,k,'distance','sqEuc原创 2016-05-16 23:09:40 · 4250 阅读 · 0 评论