自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(6)
  • 收藏
  • 关注

转载 机器学习实例--预测美国人口收入状况

一. 问题描述每个人都希望自己能获得更高的收入,而影响收入高低的因素有很多,能否通过大数据分析来找出对收入影响相对较大的因素?二. 研究意义如果我们知道对收入高低起决定性的作用,或者哪些因素组合在一起也能增大收入的可能性,那可以帮助很多人少走弯路,朝着正确的方向努力,早日达到目标。三. 数据预处理1. 选取数据集本报告选取“adult”数...

2018-06-28 23:13:00 2148

转载 利用主成分分析(PCA)简化数据

一.PCA基础线性映射(或线性变换),简单的来说就是将高维空间数据投影到低维空间上,那么在数据分析上,我们是将数据的主成分(包含信息量大的维度)保留下来,忽略掉对数据描述不重要的成分。即将主成分维度组成的向量空间作为低维空间,将高维数据投影到这个空间上就完成了降维的工作。在 PCA中,数据从原来的坐标系转换到了新的坐标系,新坐标系的选择是由数据本身决定的。第一个新坐标...

2018-06-12 11:43:00 545

转载 K-均值聚类算法

一.k均值聚类算法对于样本集。"k均值"算法就是针对聚类划分最小化平方误差:其中是簇Ci的均值向量。从上述公式中可以看出,该公式刻画了簇内样本围绕簇均值向量的紧密程度,E值越小簇内样本的相似度越高。工作流程:k-均值算法的描述如下:创建k个点作为起始质心(通常随机选择)当任意一个点的簇分配结果发生改变时: 对数据集中的每个点...

2018-06-05 19:08:00 886

转载 回归预测数值型数据

一.线性回归回归的目的是预测数值型的目标值。最直接的办法是依据输入写成一个目标值的计算公式。回归方程:y=a_1*x_1+a_2*x_2其中的 a1 和 a2 称作回归系数,求这些回归系数的过程就是回归。一旦有了这些回归系数,再给定输入,做预测就非常容易了,具体的做法是用回归系数乘以输入值,再将结果全部加在一起,就得到了预测值应当怎样从一大堆数据里求出回归方...

2018-06-03 18:34:00 346

转载 在Titanic数据集上应用AdaBoost元算法

一.AdaBoost 元算法的基本原理AdaBoost是adaptive boosting的缩写,就是自适应boosting。元算法是对于其他算法进行组合的一种方式。 而boosting是在从原始数据集选择S次后得到S个新数据集的一种技术。新数据集和原数据集的大小相等。每个数据集都是通过在原始数据集中随机选择一个样本来进行替换而得到的。这里的替换就意味着可以多次地选择...

2018-05-26 09:41:00 413

转载 机器学习-支持向量机算法实现与实例程序

一. SMO算法基础支持向量就是离分隔超平面最近的那些点。分隔超平面是将数据集分开来的决策边界。支持向量机将向量映射到一个更高维的空间里,在这个空间里建立有一个最大间隔超平面。在分开数据的超平面的两边建有两个互相平行的超平面。建立方向合适的分隔超平面使两个与之平行的超平面间的距离最大化。其假定为,平行超平面间的距离或差距越大,分类器的总误差越小。我们希望找...

2018-05-20 12:05:00 478

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除