机器学习之基本数据类型

最新推荐文章于 2024-03-07 19:06:00 发布

辣椒种子

最新推荐文章于 2024-03-07 19:06:00 发布

阅读量188

点赞数 10

分类专栏：机器学习文章标签：机器学习人工智能

本文链接：https://blog.csdn.net/lijunhcn/article/details/134568907

版权

机器学习专栏收录该内容

97 篇文章 8 订阅

订阅专栏

在这里插入图片描述

MLlib支持存储在单个机器上的局部向量和矩阵，以及由一个或多个RDD支持的分布式矩阵。局部向量和局部矩阵是用作公共接口的简单数据模型。底层线性代数操作由Breeze提供。在监督学习中使用的训练示例在MLlib中称为“标记点”。

一、本地向量

局部向量具有整数类型和基于0的索引和双类型值，存储在单个机器上。 MLlib支持两种类型的局部向量：密集和稀疏。密集向量由表示其条目值的双数组支持，而稀疏向量由两个并行数组支持：索引和值。例如，矢量（1.0,0.0,3.0）可以以密集格式表示为[1.0,0.0,3.0]，或者以稀疏格式表示为（3，[0,2]，[1.0,3.0]），其中3是矢量的大小。

//创建一个稠密本地向量

Vector v1 = Vectors.dense(0.0, 10.0, 0.5);

//创建一个稀疏向量

Vector v2 = Vectors.sparse(3, new int[]{0, 1}, new double[]{-2.0, 2.3});

二、向量标签（标记点）（LabeledPoint）

向量标签LabeledPoint是一种带有标签（Label/Response）的本地向量，它可以是稠密或者是稀疏的。在MLlib中，标记点用于监督学习算法。由于标签是用双精度浮点型来存储的，故标注点类型在回归（Regression）和分类（Classification）问题上均可使用。例如，对于二分类问题，则正样本的标签为1，负样本的标签为0，而对于多类别的分类问题来说，标签则应是一个以0开始的索引序列:0, 1, 2 ...

//创建一个标签为1.0（分类中可视为正样本）的稠密向量标注点

LabeledPoint L1 = new LabeledPoint(1.0,Vectors.dense(2.0, 3.0, 3.0));

//创建一个标签为0.0（分类中可视为负样本）的稀疏向量标注点

LabeledPoint L2 = new LabeledPoint(0.0,Vectors.sparse(3, new int[]{0, 1}, new double[]{-2.0, 2.3}));

在实际的机器学习问题中，稀疏向量数据是非常常见的，MLlib提供了读取LIBSVM格式数据的支持，该格式被广泛用于LIBSVM、LIBLINEAR等机器学习库。在该格式下，每一个带标注的样本点由以下格式表示：

label index1:value1 index2:value2 index3:value3 ...

其中label是该样本点的标签值，一系列index:value对则代表了该样本向量中所有非零元素的索引和元素值。这里需要特别注意的是，index是以1开始并递增的。 MLlib在org.apache.spark.mllib.util.MLUtils工具类中提供了读取LIBSVM格式的方法loadLibSVMFile，其使用非常方便。

SparkSession spark = SparkSession.builder().appName("VectorsTest").master("local[2]").getOrCreate();

SparkContext sparkContext = spark.sparkContext();

JavaRDD<LabeledPoint> examples=MLUtils.loadLibSVMFile(sparkContext,"data/mllib/sample_libsvm_data.txt").toJavaRDD();

(0.0,(692,[127,128,129,130,131,154,155,156,157,158,159,181,182,183,184,185,186,187,188,189,207,208,209,210,211,212,213,214,215,216,217,235,236,237,238,239,240,241,242,243,244,245,262,263,264,265,266,267,268,269,270,271,272,273,289,290,291,292,293,294,295,296,297,300,301,302,316,317,318,319,320,321,328,329,330,343,344,345,346,347,348,349,356,357,358,371,372,373,374,384,385,386,399,400,401,412,413,414,426,427,428,429,440,441,442,454,455,456,457,466,467,468,469,470,482,483,484,493,494,495,496,497,510,511,512,520,521,522,523,538,539,540,547,548,549,550,566,567,568,569,570,571,572,573,574,575,576,577,578,594,595,596,597,598,599,600,601,602,603,604,622,623,624,625,626,627,628,629,630,651,652,653,654,655,656,657],[51.0,159.0,253.0,159.0,50...

每个标注点共有692个维，其中第127列对应的值是51.0，第128列对应的值是159.0，依此类推。

三、本地矩阵

局部矩阵具有整数类型的行和列索引以及双类型值，存储在单个机器上。 MLlib支持密集矩阵，其条目值以列主要顺序存储在单个双数组中，以及稀疏矩阵，其非零条目值以列主要顺序存储在压缩稀疏列（CSC）格式中。例如，以下密集矩阵：

在这里插入图片描述

存储在具有矩阵大小（3,2）的一维阵列[1.0,3.0,5.0,2.0,4.0,6.0]中。

//创建稠密矩阵((1.0, 2.0), (3.0, 4.0), (5.0, 6.0))

Matrix d = Matrices.dense(3, 2, new double[]{1.0, 3.0, 5.0, 2.0, 4.0, 6.0});

//创建稀疏矩阵((9.0, 0.0), (0.0, 8.0), (0.0, 6.0))

Matrix s = Matrices.sparse(3, 2, new int[]{0, 1,3}, new int[]{0, 1,1}, new double[]{9.0, 6.0,8.0});

这里，创建一个3行2列的稀疏矩阵[ [9.0,0.0], [0.0,8.0], [0.0,6.0]]。Matrices.sparse的参数中，3表示行数，2表示列数。第1个数组参数表示列指针，即每一列元素的开始索引值，第二个数组参数表示行索引，即对应的元素是属于哪一行；第三个数组即是按列先序排列的所有非零元素，通过列指针和行索引即可判断每个元素所在的位置。比如取每个数组的第2个元素为2,1,6，表示第2列第1行的元素值是6.0。

四、分布式矩阵

分布式矩阵具有长类型的行和列索引以及双类型值，分布式地存储在一个或多个RDD中。选择正确的格式来存储大型和分布式矩阵非常重要。将分布式矩阵转换为不同的格式可能需要全局混洗，这非常昂贵。到目前为止已经实现了四种类型的分布式矩阵。

基本类型称为RowMatrix。 RowMatrix是行方向的分布式矩阵，没有有意义的行索引，例如特征向量的集合。它由行的RDD支持，其中每行是本地向量。我们假设RowMatrix的列数不是很大，因此单个本地向量可以合理地传递给驱动程序，也可以使用单个节点进行存储/操作。 IndexedRowMatrix类似于RowMatrix，但具有行索引，可用于标识行和执行连接。 CoordinateMatrix是以坐标列表（COO）格式存储的分布式矩阵，由其条目的RDD支持。 BlockMatrix是由MatrixBlock的RDD支持的分布式矩阵，它是（Int，Int，Matrix）的元组。

4.1、行矩阵（RowMatrix）

RowMatrix是面向行的分布式矩阵，没有有意义的行索引，由其行的RDD支持，其中每行是本地向量。由于每一行都由局部向量表示，因此列数受整数范围的限制，但在实践中它应该小得多。

SparkConf conf = new  SparkConf().setMaster("local").setAppName("DistributedMatrixRowMatrix");

JavaSparkContext jsc = new  JavaSparkContext(conf);

JavaRDD<Vector> rows =  jsc.parallelize(Arrays.asList(Vectors.dense(4.0,5.0,6.0),Vectors.dense(2.0,12.0,6.0)));

RowMatrix matrix = new  RowMatrix(rows.rdd());

System.out.println(matrix.numCols());

System.out.println(matrix.numRows());

System.out.println(matrix.rows().first());

System.out.println("行数:"+matrix.computeColumnSummaryStatistics().count());

System.out.println("最大向量:"+matrix.computeColumnSummaryStatistics().max());

System.out.println("方差向量:"+matrix.computeColumnSummaryStatistics().variance());

System.out.println("L1范数向量:"+matrix.computeColumnSummaryStatistics().normL1());

在获得RowMatrix的实例后，我们可以通过其自带的computeColumnSummaryStatistics()方法获取该矩阵的一些统计摘要信息，并可以对其进行QR分解，SVD分解和PCA分解，这一部分内容将在特征降维的章节详细解说，这里不再叙述。

4.2、索引行矩阵（IndexedRowMatrix）

IndexedRowMatrix类似于RowMatrix但具有有意义的行索引。它由索引行的RDD支持，因此每行由其索引（long-typed）和本地向量表示。

JavaRDD<IndexedRow> rows2 = jsc.parallelize(Arrays.asList(new IndexedRow(1, Vectors.dense(1.0, 2.3, 2.6)), new IndexedRow (2, Vectors.dense(1.0,2.3,50.6))));

IndexedRowMatrix mat2 = new IndexedRowMatrix(rows2.rdd());

4.3、坐标矩阵（Coordinate Matrix）

CoordinateMatrix是由其条目的RDD支持的分布式矩阵。每个条目都是（i：Long，j：Long，value：Double）的元组，其中i是行索引，j是列索引，value是条目值。只有当矩阵的两个维度都很大且矩阵非常稀疏时，才应使用CoordinateMatrix。

JavaRDD<MatrixEntry> rows3 = jsc.parallelize(Arrays.asList(new MatrixEntry(0,0,1.0), new MatrixEntry (1,0,2.0)));

CoordinateMatrix mat3 = new CoordinateMatrix(rows3.rdd());

4.4、分块矩阵（Block Matrix）

BlockMatrix是由MatrixBlocks的RDD支持的分布式矩阵，其中MatrixBlock是（（Int，Int），Matrix）的元组，其中（Int，Int）是块的索引，而Matrix是子 - 给定索引处的矩阵，其大小为rowsPerBlock x colsPerBlock。 BlockMatrix支持添加和乘以另一个BlockMatrix等方法。 BlockMatrix还有一个辅助函数validate，可用于检查BlockMatrix是否设置正确

在这里插入图片描述