- 博客(3)
- 收藏
- 关注
原创 机器学习(三)基本的统计工具
给定一个数据集,数据分析师一般会先观察一下数据集的基本情况,称之为汇总统计或者概要性统计。一般的概要性统计用于概括一系列观测值,包括位置或集中趋势(比如算术平均值、中位数、众数和四分位均值),展型(比如四分位间距、绝对偏差和绝对距离偏差、各阶矩等),统计离差,分布的形状,依赖性等。除此之外,spark.mllib库也提供了一些其他的基本的统计分析工具,包括相关性、分层抽样、假设检验,随机数生成等...
2019-09-14 01:31:53 490
原创 机器学习(二)基本数据类型
原文链接: http://www.wangpengcufe.com/machinelearning/ml2/MLlib支持存储在单个机器上的局部向量和矩阵,以及由一个或多个RDD支持的分布式矩阵。 局部向量和局部矩阵是用作公共接口的简单数据模型。 底层线性代数操作由Breeze提供。 在监督学习中使用的训练示例在MLlib中称为“标记点”。一、本地向量局部向量具有整数类型和基于0的索引和双...
2019-09-09 15:47:59 913
原创 机器学习(一) Spark MLlib介绍
原文链接:http://www.wangpengcufe.com/machinelearning/ml1/一、什么是机器学习机器学习是一门多学科交叉专业,涵盖概率论知识,统计学知识,近似理论知识和复杂算法知识,使用计算机作为工具并致力于真实实时的模拟人类学习方式, 并将现有内容进行知识结构划分来有效提高学习效率。机器学习有下面几种定义:机器学习是一门人工智能的科学,该领域的主要研究对象...
2019-09-09 15:26:45 877
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人