今天在读代码的时候,发现Python sklearn的utils有个这样的函数:sklearn.utils.validation.column_or_1d。第一次遇到这个函数,记录一下用法。
在机器学习任务中,这个函数一般是对数据集的Y进行操作。
官方说明如下:
可以看到对1维array进行raval()。warn是提出警告。这个警告是说,如果我们输入的y是2D的形式(shapes, 1),这会报警告,要把二维的形式改成1D的形式(shapes, )。当然,如果我们输入的y直接是(shapes, 2),就会直接报错。
可以看到这个函数很简单,起一个校验的作用。
之前提到了raval(),这里与python中另外常见的操作flatten()进行对比,即numpy.ravel() vs numpy.flatten()。
两者所要实现的功能是一致的(将多维数组降为一维),两者的区别在于返回拷贝(copy)还是返回视图(view),numpy.flatten()返回一份拷贝,对拷贝所做的修改不会影响(reflects)原始矩阵,而numpy.ravel()返回的是视图(view),会影响(reflects)原始矩阵。
举例如下:
import numpy as np
x = np.array([[1, 2], [3, 4]])
'''
array([[1, 2],
[3, 4]])
'''
x.flatten()
'''
array([1, 2, 3, 4])
'''
x.ravel()
'''
array([1, 2, 3, 4])
两者默认均是行序优先
'''
x.flatten('F')
'''
array([1, 3, 2, 4])
'''
x.ravel('F')
'''
array([1, 3, 2, 4])
'''
'''
两者的区别
'''
x = np.array([[1, 2], [3, 4]])
x.flatten()[1] = 100
x
'''
array([[1, 2],
[3, 4]]) # flatten:返回的是拷贝
'''
x.ravel()[1] = 100
x
'''
array([[ 1, 100],
[ 3, 4]])
'''