ghost12355-CSDN博客

原创聚类

聚类不断出现新算法原因是聚类目前没有一个好的评价方式kmeans 聚类算法步骤,1随机初始化k个聚类中心,计算每个样本到这些点的距离 ,如果一个点到初始点K1的距离最近,这个点会被聚类到这个点代表的簇,结果会生成n个簇,2重新计算每个簇的中心点(计算均值向量),重复1,2 直到聚类中心稳定.超参数只有蔟数k中值,k均值聚类抗噪声能力差,使用k中值聚类可以在一定程度上减少噪声对结果的影响kmean...

2018-06-14 10:38:49 214

原创 svm简记

线性可分,通常讨论svm的材料这个时候都会给我们展示一张图,坐标系里有两堆数据,我们有很多种方案可以将他们分开,我们需要在这很多种方案中选一条出来(这个地方需要说明一下这个时候在算法层面还是什么都没干的,这一块是纯粹的数学推导), 首先保证所有点都满足 yi(WtX+b)≥1(y属于(-1,1)) 其实这个时候有很多条线(超平面)满足条件,我们要求所有满足条件线中...

2018-06-10 09:37:32 103

原创 bagging boost (adaboost gb gbdt xgboost) 简记

bagging 以随机森林为代表森林中的每一棵树都是相互独立的他们区别是训练数据的差异每一颗树在训练时对所有训练数据进行有放回的采样采样数目与原数据相同这样采样的结果就是每棵树训练了大概占总数据69%的数据,每一颗树在训练时每个节点特征选择的时候并不是把所有特征和所有特征值得信息增益或者基尼指数都进行计算而是只计算大概70_80%的特征. 最终训练器给出的预测结果是这些树训练结果...

2018-06-08 22:41:23 364 1

原创奇异值分解svd

目前所有的文章都是直接给出了svd的应用比如图压缩的例子,然后就告诉你奇异值分解就是这个意思可以做数据的压缩等等,但是为什么?为什么可以做图片的压缩?换句话说我们这么干了之后为什么图片会在最大程度上代表原图?以下是纯系个人形象理解难等大雅之堂!奇异值分解的公式 X=UEV'实际工程中遇到的数据大多数为M*N 且m＞n 所以此处不再讨论其他乱七八糟的情形矩阵本身代表了对空间的一种线性变化,我们知道...

2018-06-08 18:24:47 275

原创主成分分析原理剖析随记

作用: 主要用于降维步骤: 1 将样本所有维度(当然是你要降维的那些维度)进行去中心化(就是所有数据减去所在维度数据的均值). 2 计算去中心化的数据的协方差矩阵 3 计算协方差举证的特征向量矩阵和特征值矩阵 4 找出特征值靠前的特征向量 (如果想把数据从4维降到2维就找出两个)组成特征向量矩阵 ...

2018-06-08 00:27:43 240

原创 CART树之回归与分类

CART树一般情况下为二叉树,大多数类库实现为二叉树. 分类问题算法: 1 cart树在创建分支的时候利用基尼指数进行特征以及具体要用来划分的特征值的选择(此处之所以不仅要选择特征还要选择特征值是因为在接下来的操作中只能创建两个节点所以像职业(老师学生行政)这样的特征就必须要做出例如是老师以及不是老师这两个条件进行分支); 二分类问题基尼指数形式为2p(1-p)...

2018-06-07 21:40:11 187

ghost12355的博客

原创聚类

原创 svm简记

原创 bagging boost (adaboost gb gbdt xgboost) 简记

原创奇异值分解svd

原创主成分分析原理剖析随记

原创 CART树之回归与分类

空空如也

空空如也

原创 聚类

原创 svm简记

原创 bagging boost (adaboost gb gbdt xgboost) 简记

原创 奇异值分解svd

原创 主成分分析原理剖析随记

原创 CART树之回归与分类

空空如也

空空如也

原创聚类

原创奇异值分解svd

原创主成分分析原理剖析随记