常用样本数据格式

最新推荐文章于 2024-07-23 00:03:14 发布

大师鲁

最新推荐文章于 2024-07-23 00:03:14 发布

阅读量3k

点赞数

本文链接：https://blog.csdn.net/laolu1573/article/details/82930851

版权

常用样本数据格式

1 libsvm格式

每行文本表示一个样本，每个字段以" "(空格)分隔，每行的文本格式

label index1:value1 index2:value1 index3:value3 ...

其中

label字段：
- 字段类型：Int
- 当输入数据是训练数据，label为样本的标签，二分类算法label是{0, 1}，多分类算法label是{0, 1, 2, …, n} ；
- 当输入数据是预测数据，label是样本的index；
index:value字段：
- 特征index对应的value，index类型为Int，value类型为Double
- 特征的index，从1开始计数, 与标准的libsvm格式一致

# libsvm样例数据
 1 1:0.5 3:3.1 7:1.0
 0 2:0.1 3:2.3 5:2.0
 1 4:0.2 7:1.1 9:0.0
    ....

2 dummy格式

每一行为一条记录(一个样本)，每个字段以" "分隔，每行的文本格式

"label index1 index2 index3"

label字段
- 字段类型：Int
- 当输入数据是训练数据，label为样本的标签，二分类算法label是{0, 1}，多分类算法label是{0, 1, 2, …, n} ；
- 当输入数据是预测数据，label是样本的index；
index字段
- 字段类型：Int/Long
- 特征的index，从0开始计数
- 这些是特征值为1的index，其他的就是特征值为0的index

# 数据格式样例
0 3 7 999 666
1 0 2 88 77
  ...

3 ffv格式

每行文本表示一个样本，每个字段以" "(空格)分隔，每行的文本格式

sample_id,feature_num,label,feature_field_id0x02feature_id0x03feature_value0x01feature_field_id0x02feature_id0x03feature_value...

其中

label字段：
- 字段类型：Int
- 当输入数据是训练数据，label为样本的标签，二分类算法label是{0, 1}，多分类算法label是{0, 1, 2, …, n} ；
- 当输入数据是预测数据，label是样本的index；
feature_field_id0x02feature_id0x03feature_value字段：

特征域下特征id对应的value，特征id类型为Int，value类型为Double

# ffv样例数据(如Ali-CCP：Alibaba Click and Conversion Prediction数据集)
0,216:9342395:1.0 301:9351665:1.0 205:7702673:1.0 206:8317829:1.0 207:8967741:1.0 508:9356012:2.30259 210:9059239:1.0 210:9042796:1.0 210:9076972:1.0 210:9103884:1.0 210:9063064:1.0 127_14:3529789:2.3979 127_14:3806412:2.70805
....

大师鲁

关注

0
点赞
踩
3

收藏

觉得还不错? 一键收藏
0
评论
常用样本数据格式

常用样本数据格式1 libsvm格式每行文本表示一个样本，每个字段以" "(空格)分隔，每行的文本格式label index1:value1 index2:value1 index3:value3 ...其中label字段：字段类型：Int当输入数据是训练数据，label为样本的标签，二分类算法label是{0, 1}，多分类算法label是{0, 1, 2, …, n} ；...
复制链接

扫一扫