csv转为矩阵 python_PAI-TF数据转换方法

最新推荐文章于 2021-09-23 10:00:09 发布

戴雨森

最新推荐文章于 2021-09-23 10:00:09 发布

阅读量760

点赞数

文章标签： csv转为矩阵 python

本文链接：https://blog.csdn.net/weixin_32482133/article/details/114978670

版权

本文详细介绍了如何使用Python的PAI-TF库将CSV数据转换为稀疏矩阵和稠密矩阵，包括trans_csv_id2sparse、trans_csv_kv2dense等接口的用法，并给出了具体示例。

摘要由CSDN通过智能技术生成

本文为您介绍PAI-TF数据转换方法。

trans_csv_id2sparse Python接口

将标记有效位置的CSV字符串集合转换成为稀疏矩阵。trans_csv_id2sparse(records, max_id, id_as_value=True, field_delim=”,”)输入以下参数：

参数

是否必选

描述

records

是

类型STRING数组待解析CSV字符串数组(列表)，以CSV格式由分隔符分隔。

max_id

是

类型INT64稀疏矩阵的最大列数，用于设定输出中的dense_shape值。如果实际ID大于或等于dense_shape值，则报错。

id_as_value

否

类型BOOL，默认为True，将Index编号作为稀疏矩阵中有效点的值，类型为INT64。无特殊情况不建议更改为False。

field_delim

否

类型STRING，默认为英文逗号(,)。CSV格式数据的分隔符。不支持数字、正负号、字母e和E、小数点(.)和多字节分隔符。当使用空格作为分隔符时，多个连续空格将被视作一个分隔符。

输出：由Index CSV序列转换而得的Sparse Tensor，Value类型为INT64。

示例：将一个batch的存有Index数据的STRING转换成一个sparse tensor。

输入：[“2,10”,“7”,“0,8”]

需求：

矩阵列宽度为20，有效点填入原Index。

代码：outsparse = tf.trans_csv_id2sparse([“2,10”,“7”,“0,8”], 20)

返回结果：SparseTensor(

indices=[[0,2],[0,10],[1,7],[2,0],[2,8]],

values=[2, 10, 7, 0, 8],

dense_shape=[3,20])

trans_csv_kv2dense Python接口

将以Key/Value形式标记有效位置和值的CSV字符串集合转换成为稠密矩阵。trans_csv_kv2dense(records, max_id, field_delim=”,”)输入以下参数：

参数

是否必选

描述

records

是

类型STRING数组待解析CSV字符串数组(列表)，以CSV格式由分隔符分隔。每一个数据项均为以冒号(:)分隔的Key/Value形式数据，否则报错。

max_id

是

类型INT64输出的稠密矩阵的列数。如果实际ID大于或等于列数，则报错。

field_delim

否

输出：由Key/Value形式CSV序列转换而得的稠密矩阵，默认输出类型为FLOAT，空白处以0.0填充。

示例：将一个batch以Key/Value形式Index: Value存储的STRING转换成为一个稠密矩阵。

输入：[“1:0.1,2:0.2,4:0.4,10:1.0”,

“0:0.22,3:0.33,9:0.99”,

“2:0.24,7:0.84,8:0.96” ]

需求：

列宽设置为12。

代码：outmatrix = tf.trans_csv_kv2dense(

[“1:0.1,2:0.2,4:0.4,10:1.0”,

“0:0.22,3:0.33,9:0.99”,

“2:0.24,7:0.84,8:0.96” ] , 12)

返回结果：[[0.0, 0.1, 0.2, 0.0, 0.4, 0.0, 0.0, 0.0, 0.0, 0.0, 1.0, 0.0]

[0.22, 0.0, 0.0, 0.33, 0.0, 0.0, 0.0, 0.0, 0.0, 0.99, 0.0, 0.0]

[0.0, 0.0, 0.24, 0.0, 0.0, 0.0, 0.0, 0.84, 0.96, 0.0, 0.0, 0.0]]

trans_csv_kv2sparse Python接口

将以Key/Value形式标记有效位置和值的CSV字符串集合转换成为稀疏矩阵。trans_csv_kv2sparse(records, max_id, field_delim=”,”)输入以下参数：

参数

是否必选

描述

records

是

类型STRING数组待解析CSV字符串数组(列表)，以CSV格式由分隔符分隔。每一个数据项均为以冒号(:)分隔的Key/Value形式数据，否则报错。当使用空格作为分隔符时，多个连续空格将被视作一个分隔符。

max_id

是

类型INT64稀疏矩阵的最大列数，用于设定输出中的dense_shape值。如果实际ID大于或等于dense_shape值，则报错。

field_delim

否

输出：由Key/Value形式CSV序列转换而得的稀疏矩阵，默认输出类型为FLOAT。

示例：将一个batch以Key/Value形式Index: Value存储的STRING转换成为一个稀疏矩阵。

输入：[“1:0.1,2:0.2,4:0.4,10:1.0”,

“0:0.22,3:0.33,9:0.99”,

“2:0.24,7:0.84,8:0.96” ]

需求：

列宽设置为20，生成稀疏矩阵Tensor。

代码：outsparse = tf.trans_csv_kv2sparse(

[“1:0.1,2:0.2,4:0.4,10:1.0”,

“0:0.22,3:0.33,9:0.99”,

“2:0.24,7:0.84,8:0.96” ] , 20)

返回结果：SparseTensor(

indices=[[0,1],[0,2],[0,4],[0,10],[1,0],[1,3],[1,9],[2,0],[2,7],[2,8]],

values=[0.1, 0.2, 0.4, 1.0, 0.22, 0.33, 0.99, 0.24, 0.84, 0.96],

dense_shape=[3,20])

trans_csv_id2dense Python接口

将标记有效位置的CSV字符串集合转换成为稠密矩阵。trans_csv_id2dense(records, max_id, id_as_value=False, field_delim=”,”)输入以下参数：

参数

是否必选

描述

records

是

类型STRING数组待解析CSV字符串数组(列表)，以CSV格式由分隔符分隔。

max_id

是

类型INT64输出的稠密矩阵的列数。如果实际ID大于或等于列数，则报错。

id_as_value

否

类型BOOL，默认为False，稀疏矩阵中有效点的值将会填入int64(1)。

field_delim

否

输出：由Index CSV序列转换而得的稠密矩阵，类型为INT64，空白处以0值填充。

示例：将一个batch的存有Index数据的STRING转换成一个稠密矩阵：

输入：[“2,10”,“7”,“0,8”]

需求：

需求：列宽设置为12，有效点填入1。

代码：outmatrix = tf.trans_csv_id2dense(

[“2,10”,“7”,“0,8”], 12)

返回结果：[[0, 0, 1, 0, 0, 0, 0, 0, 0, 0, 1, 0]

[0, 0, 0, 0, 0, 0, 0, 1, 0, 0, 0, 0]

[1, 0, 0, 0, 0, 0, 0, 0, 1, 0, 0, 0]]

trans_csv_to_dense Python接口

将由数值组成的CSV字符串集合转换成为稠密矩阵。trans_csv_to_dense(records, max_id, field_delim=”,”)输入以下参数：

参数

是否必选

描述

records

是

类型STRING数组待解析CSV字符串数组(列表)，以CSV格式由分隔符分隔。

max_id

是

类型INT64输出的稠密矩阵的列数。如果实际CSV字符串的列数大于或等于列数，则报错。

field_delim

否

输出：由Key/Value形式CSV序列转换而得的稠密矩阵，默认输出类型为FLOAT，空白处以0.0填充。

示例：将一个batch的CSV格式STRING转换成为一个稠密矩阵。

输入：[“0.1,0.2,0.4,1.0”,

“0.22,0.33,0.99”,

“0.24,0.84,0.96” ]

需求：

列宽设置为6。

代码：outmatrix = tf.trans_csv_to_dense(

[“0.1,0.2,0.4,1.0”,

“0.22,0.33,0.99”,

“0.24,0.84,0.96” ] , 6)

返回结果：[[0.1, 0.2, 0.4, 1.0, 0.0, 0.0]

[0.22, 0.33, 0.99, 0.0, 0.0, 0.0]

[0.24, 0.84, 0.96, 0.0, 0.0, 0.0]]

代码实例

以下代码通过TensorFlow从存放在ODPS的数据表中读取数据。数据共有6列，第1列为ID，第2列为Key/Value格式的CSV数据，后4列为Index格式的CSV数据。数据读取后调用TransCSV的ODPS，将这5列数据分别转换为1个稠密矩阵和4个稀疏矩阵，用于模型训练。import tensorflow as tf

import numpy as np

def read_table(filename_queue):

batch_size = 128

reader = tf.TableRecordReader(csv_delimiter=';', num_threads=8, capacity=8*batch_size)

key, value = reader.read_up_to(filename_queue, batch_size)

values = tf.train.batch([value], batch_size=batch_size, capacity=8*capacity, enqueue_many=True, num_threads=8)

record_defaults = [[1.0], [""], [""], [""], [""], [""]]

feature_size = [1322,30185604,43239874,5758226,41900998]

col1, col2, col3, col4, col5, col6 = tf.decode_csv(values, record_defaults=record_defaults, field_delim=';')

col2 = tf.trans_csv_kv2dense(col2, feature_size[0])

col3 = tf.trans_csv_id2sparse(col3, feature_size[1])

col4 = tf.trans_csv_id2sparse(col4, feature_size[2])