spark机器学习一 向量和矩阵

ScalaNLP是一套机器学习和数值计算的库,主要是关于科学计算、机器学习和自然语言处理(NLP)的,里面包含三个库,Breeze、Epic和Puck。

其中Breeze是机器学习和数值计算库,Epic是一种高性能统计分析器和结构化预测库,Puck是一个快速GPU加速解析器。

在这里插入图片描述

常用类型转换api

  • toArray
  • 转为Breeze toBreeze
  • 稠密转稀疏 toSparse
  • Mllib转ML asML

Spark ML中稀疏向量与稠密向量区别?

  • 稠密向量存储:底层存储使用完成的Double Array存储。
  • 稀疏矩阵:底层存储非0的元素值以及该值的index以及向量的size。(也就是三维信息,存储效率高)

向量和矩阵api,以Breeze为例

导入

 

import breeze.linalg._  
import breeze.numerics._  

 

Spark Mllib底层的向量、矩阵运算使用了Breeze库,Breeze库提供了Vector/Matrix的实现以及相应计算的接口(Linalg)。但是在MLlib里面同时也提供了Vector和Linalg等的实现。在使用Breeze库时,需要导入相关包:

Import breeze.linalg._

Import breeze.numeric._

 

Breeze创建函数:

操作名称

Breeze函数

输出结果

对应Numpy函数

全0矩阵

DenseMatrix.zeros[Double](2,3)

0.0 0.0 0.0

0.0 0.0 0.0

zeros((2,3))

全0向量

DenseVector.zeros[Double](3)

DenseVector(0.0,0.0,0.0)

zeros(3)

全1向量

DenseVector.ones[Double](3)

DenseVector(1.0,1.0,1.0)

ones(3)

按数值填充向量

DenseVector.fill(3){1.0}

DenseVector(1.0,1.0,1.0)

ones(3)*1.0

生成随机向量

DenseVector.range(start,end,step), Vector.rangeD(start,end,step)

DenseVector(1,3,5,7,9)

 

线性等分向量(用于产生Start, end之间的N点行矢量)

DenseVector.linspace(start,end,numvals)

 

 

单位矩阵

DenseMatr.eye[Double](3)

1.0 0.0 0.0

0.0 1.0 0.0

0.0 0.0 1.0

eye(3)

对角矩阵

Diag(DenseVector(1.0,2.0,3.0))

1.0 0.0 0.0

0.0 2.0 0.0

0.0 0.0 3.0

diag((1.0,2.0,3.0))

按照行创建矩阵

DenseMatrix((1.0,2.0),(3.0,4.0))

1.0 2.0

3.0 4.0

array([[1.0,2.0],[3.0,4.0]])

按照行创建向量

DenseVector(1,2,3,4)

[1 2 3 4]

array([1,2,3,4])

向量转置

DenseVector(1,2,3,4).t

[1 2 3 4]T

array([1 2 3 4]).reshape(-1,1)

从函数创建向量

DenseVector.tabulate(3){i => i*2}

[0 1 4]

 

从函数创建矩阵

DenseMatrix.tabulate(3,2){case(i,j) => i+j}

0 1

1 2

2 3

 

从数组创建向量

new DenseVector(array(1, 2, 3,4))

[1 2 3 4]

 

从数组创建矩阵

new DenseMatrix(2,3,array(11,12,13,21.22,23))

11 12 13

21 22 23

 

0到1的随机向量

DenseVector.rand(4)

[0.0222 0.2231 0.5356 0.6902]

 

0到1的随机矩阵

DenseMatrix.rand(2,3)

0.2122 0.3033 0.8675

0.6628 0.0023 0.9987

 

 

Breeze元素访问

操作名称

Breeze函数

对应Numpy函数

指定位置

a(0,1)

a[0,1]

向量子集

a(1 to 4), a(1 until 5), a.slice(1,5)

a[1:5]

按照指定步长取子集

a(5 to 0 by -1)

a[5:0:-1]

指定开始位置至结尾

a(1 to -1)

a[1:]

最后一个元素

a(-1)

a[-1]

矩阵指定列

a(::, 2)

a[:,2]

 

Breeze元素操作

操作名称

Breeze函数

对应Numpy函数

调整矩阵形状

a.reshape(3,2)

a.reshape(3,2)

矩阵转成向量

a.toDenseVector(Makes copy)

a.flatten()

复制下三角

lowerTriangular(a)

tril(a)

复制上三角

upperTriangular(a)

triu(a)

矩阵复制

a.copy

np.copy(a)

取对角线元素

diag(a)

diagonal(a)

子集赋数值

a(1 to 4) := 5.0

a[1:4]=5.0

子集赋向量

a(1 to 4) := DenseVector(1.0,2.0,3.0)

a[1:4]=[1.0 2.0 3.0]

矩阵赋值

a(1 to 3, 1 to 3) := 5.0

a[2:4, 2:4] = 5.0

矩阵列赋值

a(::, 2) := 5.0

a(:,3) = 5

垂直连接矩阵

DenseMatrix.vertcat(a,b)

[a;b]

横向连接矩阵

DenseMatrix.horzcat(a,b)

[a,b]

向量连接

DenseVector.vertcat(a,b)

[a b]

 

Breeze数值计算函数

操作名称

Breeze函数

对应Numpy函数

元素加法

a + b

a + b

元素乘法

a :* b

a * b

元素除法

a :/ b

a / b

元素比较

a :< b

a < b

元素相等

a :== b

a == b

元素追加

a :+= 1.0

a += 1

元素追乘

a :*= 2.0

a *= 2

向量点积

a dot b, a.t * bT

dot(a,b)

元素最大值

max(a)

a.max()

元素最大值及位置

argmax(a)

a.argmax()

 

Breeze求和函数

操作名称

Breeze函数

对应Numpy函数

元素求和

sum(a)

a.sum()

每一列求和

sum(a, axis._0), sum(a(::,*))

sum(a,0)

每一行求和

sum(a,axis._1), sum(a(*, ::))

sum(a,1)

对角线元素和

trace(a)

a.trace()

累积和

accumulate(a)

a.cumsum()

 

Breeze布尔函数

操作名称

Breeze函数

对应Numpy函数

元素与操作

a :& b

a & b

元素或操作

a :| b

a | b

元素非操作

!a

~a

任意元素非零

any(a)

any(a)

所有元素非零

all(a)

all(a)

 

Breeze线性代数函数

操作名称

Breeze函数

对应Numpy函数

线性求解

a \ b

linalg.solve(a,b)

转置

a.t

a.conj.transpose()

求行列式

det(a)

linalg.det(a)

求逆

inv(a)

linalg.inv(a)

求伪逆

pinv(a)

linalg.pinv(a)

求范数

norm(a)

norm(a)

特征值和特征向量

eigSym(a)

linalg.eig(a)[0]

特征值

val(er,ei,_) = eig(a)(实部与虚部分开)

lialg.eig(a)[0]

特征向量

eig(a)._3

 

奇异值分解

val svd.SVD(u,s,v) = svd(a)

linalg.svd(a)

求矩阵的秩

rank(a)

rank(a)

矩阵长度

a.length

a.size

矩阵行数

a.rows

a.shape[0]

矩阵列数

a.cols

a.shape[1]

 

Breeze取整函数

操作名称

Breeze函数

对应Numpy函数

四舍五入

round(a)

around(a)

最小整数

ceil(a)

ceil(a)

最大整数

floor(a)

floor(a)

符号函数

signum(a)

sign(a)

取正数

abs(a)

abs(a)

 

BLAS向量-向量运算

SROTG

Givens旋转设置

SROTMG

改进Givens旋转设置

SROT

Givens旋转

SROTM

改进Givens旋转

SSWAP

交换x和y

SSCAL

常数a乘以向量x()

SCOPY

把x复制到y

SAXPY

向量y+常数a乘以向量x(y = a*x + y)

SDOT

点积

SDSDOT

扩展精度累积的点积

SNRM2

欧氏范数

SCNRM2

欧氏范数

SASUM

绝对值之和

ISAMAX

最大值位置

 

BLAS矩阵-向量运算

SGEMV

矩阵向量乘法

SGBMV

带状矩阵向量乘法

SSYMV

对称矩阵向量乘法

SSBMV

对称带状矩阵向量乘法

SSPMV

对称填充矩阵向量乘法

STRMV

三角矩阵向量乘法

STBMV

三角带状矩阵向量乘法

STPMV

三角填充矩阵向量乘法

STRSV

求解三角矩阵

STBSV

求解三角带状矩阵

STPSV

求解三角填充矩阵

SGER

A := alpha*x*y’ + A

SSYR

A := alpha*x*x’ + A

SSPR

A := alpha*x*x’ + A

SSYR2

A := alpha*x*y’ + alpha*y*x’ + A

SSPR2

A := alpha*x*y’ + alpha*y*x’ + A

 

BLAS矩阵-矩阵运算

SGEMM

矩阵乘法

SSYMM

对称矩阵乘法

SSYPK

对称矩阵的秩-k修正

SSYR2K

对称矩阵的秩-2k修正

STRMM

三角矩阵乘法

STRSM

多重右端的三角线性方程组求解

 

 

 

 


 

BLAS向量-向量运算 
SROTGGivens旋转设置
SROTMG改进Givens旋转设置
SROTGivens旋转
SROTM改进Givens旋转
SSWAP交换xy
SSCAL常数a乘以向量x()
SCOPYx复制到y
SAXPY向量y+常数a乘以向量xy = a*x + y
SDOT点积
SDSDOT扩展精度累积的点积
SNRM2欧氏范数
SCNRM2欧氏范数
SASUM绝对值之和
ISAMAX最大值位置
  
BLAS矩阵-向量运算 
SGEMV矩阵向量乘法
SGBMV带状矩阵向量乘法
SSYMV对称矩阵向量乘法
SSBMV对称带状矩阵向量乘法
SSPMV对称填充矩阵向量乘法
STRMV三角矩阵向量乘法
STBMV三角带状矩阵向量乘法
STPMV三角填充矩阵向量乘法
STRSV求解三角矩阵
STBSV求解三角带状矩阵
STPSV求解三角填充矩阵
SGERA := alpha*x*y’ + A
SSYRA := alpha*x*x’ + A
SSPRA := alpha*x*x’ + A
SSYR2A := alpha*x*y’ + alpha*y*x’ + A
SSPR2A := alpha*x*y’ + alpha*y*x’ + A
  
BLAS矩阵-矩阵运算 
SGEMM矩阵乘法
SSYMM对称矩阵乘法
SSYPK对称矩阵的秩-k修正
SSYR2K对称矩阵的秩-2k修正
STRMM三角矩阵乘法
STRSM多重右端的三角线性方程组求解

 

 


向量与向量

  • 加:+    减:-   点乘:  :*   点除::/    向量乘法: *  向量除法: /

矩阵与矩阵

  • 加:+    减:-   点乘:  :*   点除::/        矩阵乘法: *  矩阵除法: /

矩阵或向量与数值

  • 加:  减:-    乘:*    除:/  

矩阵和向量

  • 加:+    减:-   点乘:  :*   点除::/        矩阵乘法: *  矩阵除法: /
  • Matrix(*, ::)+Vector 逐行
  • Matrix(::, *)+Vector 逐列
  • 1
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

orange大数据技术探索者

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值