Day1—达观杯智能文本处理

最新推荐文章于 2019-04-16 11:27:32 发布

Grit-Scarlett

最新推荐文章于 2019-04-16 11:27:32 发布

阅读量957

点赞数

分类专栏：项目文章标签：达观杯

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/gritscarlett/article/details/89048826

版权

项目专栏收录该内容

6 篇文章 0 订阅

订阅专栏

Day1_数据初始

Task:项目任务建立模型通过长文本数据正文，预测文本对应的类别

数据

数据包含2个csv文件,即train_set.csv和test_set.csv.
ps:因为在外条件有限，先读取前5000行数据。

train_set.csv

此数据集用于训练模型，每一行对应一篇文章。文章分别在“字”和“词”的级别上做了脱敏处理。共有四列：
第一列是文章的索引（id）;
第二列是文章正文在“字”级别上的表示，即字符间隔正文（article）;
第三列是在“词”级别上的表示，即词语相隔正文（word_seg）；
第四列是这篇文章的标注（class）。

test_set.csv

此数据用于测试。数据格式同train_set.csv，但不包含class。
注：test_set与train_test中文章id的编号是独立的。

测试集数据情况

在这里插入图片描述

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
Day1—达观杯智能文本处理

Day1_数据初始Task:项目任务建立模型通过长文本数据正文，预测文本对应的类别数据train_set.csv:test_set.csv:测试集数据情况Task:项目任务建立模型通过长文本数据正文，预测文本对应的类别数据数据包含2个csv文件,即train_set.csv和test_set.csv.ps:因为在外条件有限，先读取前5000行数据。train_set.csv:此数据集用...
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。