- 博客(6)
- 收藏
- 关注
转载 机器学习实例--预测美国人口收入状况
一. 问题描述 每个人都希望自己能获得更高的收入,而影响收入高低的因素有很多,能否通过大数据分析来找出对收入影响相对较大的因素? 二. 研究意义 如果我们知道对收入高低起决定性的作用,或者哪些因素组合在一起也能增大收入的可能性,那可以帮助很多人少走弯路,朝着正确的方向努力,早日达到目标。 三. 数据预处理 1. 选取数据集 本报告选取“adult”数...
2018-06-28 23:13:00 2191
转载 利用主成分分析(PCA)简化数据
一.PCA基础 线性映射(或线性变换),简单的来说就是将高维空间数据投影到低维空间上,那么在数据分析上,我们是将数据的主成分(包含信息量大的维度)保留下来,忽略掉对数据描述不重要的成分。即将主成分维度组成的向量空间作为低维空间,将高维数据投影到这个空间上就完成了降维的工作。 在 PCA中,数据从原来的坐标系转换到了新的坐标系,新坐标系的选择是由数据本身决定的。第一个新坐标...
2018-06-12 11:43:00 559
转载 K-均值聚类算法
一.k均值聚类算法 对于样本集。"k均值"算法就是针对聚类划分最小化平方误差: 其中是簇Ci的均值向量。从上述公式中可以看出,该公式刻画了簇内样本围绕簇均值向量的紧密程度,E值越小簇内样本的相似度越高。 工作流程: k-均值算法的描述如下: 创建k个点作为起始质心(通常随机选择) 当任意一个点的簇分配结果发生改变时: 对数据集中的每个点...
2018-06-05 19:08:00 906
转载 回归预测数值型数据
一.线性回归 回归的目的是预测数值型的目标值。最直接的办法是依据输入写成一个目标值的计算公式。 回归方程:y=a_1*x_1+a_2*x_2 其中的 a1 和 a2 称作回归系数,求这些回归系数的过程就是回归。一旦有了这些回归系数,再给定输入,做预测就非常容易了,具体的做法是用回归系数乘以输入值,再将结果全部加在一起,就得到了预测值 应当怎样从一大堆数据里求出回归方...
2018-06-03 18:34:00 372
转载 在Titanic数据集上应用AdaBoost元算法
一.AdaBoost 元算法的基本原理 AdaBoost是adaptive boosting的缩写,就是自适应boosting。元算法是对于其他算法进行组合的一种方式。 而boosting是在从原始数据集选择S次后得到S个新数据集的一种技术。新数据集和原数据集的大小相等。每个数据集都是通过在原始数据集中随机选择一个样本来进行替换而得到的。这里的替换就意味着可以多次地选择...
2018-05-26 09:41:00 421
转载 机器学习-支持向量机算法实现与实例程序
一. SMO算法基础 支持向量就是离分隔超平面最近的那些点。分隔超平面是将数据集分开来的决策边界。 支持向量机将向量映射到一个更高维的空间里,在这个空间里建立有一个最大间隔超平面。在分开数据的超平面的两边建有两个互相平行的超平面。建立方向合适的分隔超平面使两个与之平行的超平面间的距离最大化。其假定为,平行超平面间的距离或差距越大,分类器的总误差越小。 我们希望找...
2018-05-20 12:05:00 496
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人