达观杯数据竞赛第一天打卡
下载数据,读取数据,观察数据
将训练集拆分为训练集和验证集
分享自己对数据以及赛题的理解和发现
这个是我第一次写博客、第一次用 Markdown编辑器,而且时间挺着急的,中间可能会有很多不熟悉和错误,也是记录下自己的小成长。
这个竞赛是DC的,需要去官网注册、报名才能下载。会给一个网盘的地址和密码,数据有488MB。
下载下来分为训练集和测试集,先用pandas读取看看。
看来有三列,article和word_seg都是以空格分开的数字组,id是无用的序列,class是标签了。
数据挺大的,内存占用比较大了,只取1000列看看吧。
看来article 列有8838组数字了,word_seg列有5554组数字
标签有19组了。
时间比较紧,分训练和测试我就不写了,一般是7-3或者8-2