- 博客(4)
- 资源 (4)
- 收藏
- 关注
原创 距离及相似度度量方法
前言关于距离度量的方法的专题其实已经想做好久了,正好趁这个机会总结出来。这里讨论的距离度量应该是向量空间内的度量,两个点(即两个向量)之间的距离或相似性的度量。每种度量包括描述、定义和公式、优缺点、应用等部分。本文涵盖一下几个度量方法:欧氏距离; 曼哈顿距离; 切比雪夫距离; 闵可夫斯基距离; 标准化欧氏距离; 马氏距离; 巴氏距离 汉明距离; 夹角余弦; 相关系数与相关距离。
2016-12-22 17:51:48 16912 1
原创 Bootstrap,Bagging,Boosting
Bootstrap(自助法)引入Bootstrap,即“自助法”,是用小样本来估计大样本的统计方法。核心思想子样本之于样本,可以类比样本之于总体思想解析举个栗子 你要统计你们小区里男女比例,可是你全部知道整个小区的人分别是男还是女很麻烦对吧。 于是你搬了个板凳坐在小区门口,花了十五分钟去数,准备了200张小纸条,有一个男的走过去,你就拿出一个小纸条写上“M”,有一个女的过去你就写一个“
2016-12-21 22:45:33 1215
原创 经典算法题15-稀疏矩阵及三元组
一. 引入我们知道矩阵是一个非常强大的数据结构,在动态规划以及各种图论算法上都有广泛的应用。当然矩阵有着不足的地方就是空间和时间复杂度都维持在N²上,比如1w个数字建立一个矩阵,在内存中会占用1w*1w=1亿的类型空间,这时就会遇到outofmemory。。。那么面临的一个问题就是如何来压缩矩阵,当然压缩的方式有很多种,这里就介绍一个顺序表的压缩方式:三元组。二. 介绍三元组有时候我们的矩阵中只有零
2016-12-07 16:45:09 6344
原创 经典算法题14-外排序
引入我们要处理一个大文件,对其中的数值排序,一般我们想到的方法就是用排序算法,像快速排序、归并排序、选择排序、堆排序、冒泡排序等。但是这些排序算法使用的前提是需要把数据读入到内存,现在大文件太大,内存装不下,如何处理?这时我们就要用外排序(External sorting)。介绍外排序是指能够处理极大量数据的排序算法。归并(merge)排序算法中用到了分治思想,一个大问题我们可以采取分而治之,各个突
2016-12-02 12:28:31 786
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人