- 博客(4)
- 资源 (8)
- 收藏
- 关注
原创 聚类分析--k中心点算法
k中心点算法思想:k-means是每次选簇的均值作为新的中心,迭代直到簇中对象分布不再变化。其缺点是对于离群点是敏感的,因为一个具有很大极端值的对象会扭曲数据分布。那么我们可以考虑新的簇中心不选择均值而是选择簇内的某个对象,只要使总的代价降低就可以。PAM(partitioning around medoid,围绕中心点的划分)是具有代表性的k-medoids算法。它最初随机选择k个对象作为中心点,
2015-11-24 17:26:23 28808
原创 分类算法属性选择度量--信息增益、增益率、Gini指标
属性选择度量就是分裂规则,用来确定分裂属性和分裂子集信息增益信息增益:某属性的信息增益值越大,这个属性作为一棵树的根节点就能使这棵树更简洁,降低树的高度。衡量给定属性划分训练样本的能力。计算信息增益的公式需要用到“熵”(Entropy)。熵:衡量任意样本集的纯度,熵越小,样本纯度越高。
2015-11-22 19:27:12 9563
原创 决策树归纳分类算法理解
决策树归纳分类算法理解决策树归纳是从类标记的训练数据构建决策树,属于分类领域。遍历根节点到全部叶节点的路径,每条路径都属于一个元组分类。整棵决策树形成分类规则。目前构造决策树的算法包括ID3(iterative dichotomy),C4.5,CART,都基于如下抽象的算法流程,现通过一个详细的数据集对算法进行详细解释:该算法名称Generate_decision_tree(,,),递归进行决策树构。
2015-11-19 23:37:42 5658
天池大神机器学习岗面试资料
2016-10-21
基于cookie显示用户浏览记录
2016-10-14
反射在实际开发中的应用
2016-08-14
winows下python安装xgboost的包
2016-03-18
单链表反转
2016-02-27
随身云数据挖掘竞赛解题思路ppt
2016-01-23
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人