数据竞赛达观杯-数据初识

首先是报名竞赛,下载数据,比赛链接
数据下好之后会有一个train_set和test_set。我们先把train_set分为train_set和valid_set。
先把csv格式数据读入python中
csv读入会以下两种办法:

  1. 用csv标准库读取
import csv
csv_reader = csv.reader(open("train_set.csv"))
  1. 用pandas读取
import pandas as pd
data = pd.read_csv("train_set.csv")

至于分解成两个数据集,不需要我们再随机选取,scikit-learn中有一函数train_test_split随机划分数据集和训练集

from sklearn.model_selection import train_test_split
X_train, X_test, y_train, y_test = train_test_split(data[['article','word_seg']], data['class'], test_size=0.3,random_state=2019)
  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值