自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(6)
  • 收藏
  • 关注

原创 聚类

聚类不断出现新算法 原因是聚类目前没有一个好的评价方式kmeans 聚类算法步骤,1随机初始化k个聚类中心,计算每个样本到这些点的距离 ,如果一个点到初始点K1的距离最近,这个点会被聚类到这个点代表的簇,结果会生成n个簇,2重新计算每个簇的中心点(计算均值向量),重复1,2 直到聚类中心稳定.超参数只有蔟数k中值,k均值聚类抗噪声能力差,使用k中值聚类可以在一定程度上减少噪声对结果的影响kmean...

2018-06-14 10:38:49 214

原创 svm简记

        线性可分,通常讨论svm的材料这个时候都会给我们展示一张图,坐标系里有两堆数据,我们有很多种方案可以将他们分开,我们需要在这很多种方案中选一条出来(这个地方需要说明一下 这个时候在算法层面还是什么都没干的,这一块是纯粹的数学推导),        首先保证所有点都满足  yi(WtX+b)≥1(y属于(-1,1)) 其实这个时候有很多条线(超平面)满足条件,我们要求所有满足条件线中...

2018-06-10 09:37:32 103

原创 bagging boost (adaboost gb gbdt xgboost) 简记

bagging  以随机森林为代表 森林中的每一棵树都是相互独立的 他们区别是训练数据的差异 每一颗树在训练时对所有训练数据进行有放回的采样  采样数目与原数据相同 这样采样的结果就是每棵树训练了大概占总数据69%的数据,每一颗树在训练时每个节点特征选择的时候并不是把所有特征和所有特征值得信息增益或者基尼指数都进行计算 而是 只计算大概70_80%的特征. 最终训练器给出的预测结果是这些树训练结果...

2018-06-08 22:41:23 364 1

原创 奇异值分解svd

目前所有的文章都是直接给出了svd的应用比如图压缩的例子,然后就告诉你奇异值分解就是这个意思可以做数据的压缩等等,但是为什么?为什么可以做图片的压缩?换句话说我们这么干了之后为什么图片会在最大程度上代表原图?以下是纯系个人形象理解 难等大雅之堂!奇异值分解的公式 X=UEV'实际工程中遇到的数据大多数为M*N 且m>n 所以此处不再讨论其他乱七八糟的情形矩阵本身代表了对空间的一种线性变化,我们知道...

2018-06-08 18:24:47 275

原创 主成分分析原理剖析随记

    作用:        主要用于降维    步骤:        1 将样本所有维度(当然是你要降维的那些维度)进行去中心化(就是所有数据减去所在维度数据的均值).        2 计算去中心化的数据的协方差矩阵        3 计算协方差举证的特征向量矩阵 和 特征值矩阵        4 找出特征值靠前的特征向量 (如果想把数据从4维降到2维 就找出两个)组成特征向量矩阵      ...

2018-06-08 00:27:43 240

原创 CART树之回归与分类

    CART树一般情况下为二叉树,大多数类库实现为二叉树.    分类问题算法:        1 cart树在创建分支的时候 利用基尼指数进行特征以及具体要用来划分的特征值的选择(此处之所以不仅要选择特征还要选择特征值是因为在接下来的操作中只能创建两个节点所以像职业(老师 学生 行政)这样的特征就必须要做出例如 是老师以及不是老师这两个条件进行分支); 二分类问题基尼指数形式为2p(1-p)...

2018-06-07 21:40:11 187

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除