一、赛题解析
【阿里云天池算法挑战赛】零基础入门NLP - 新闻文本分类-Day1-赛题理解_202xxx的博客-CSDN博客
二、数据读取
下载完成数据后推荐使用anaconda,python3.8进行数据读取与模型训练
首先安装需要用到的模块包:
pip版本:
pip添加国内源,增加下载速度_202xxx的博客-CSDN博客
pip install pandas -i https://pypi.tuna.tsinghua.edu.cn/simple
conda版本:
新建conda虚拟环境:
conda create --name py38 python=3.8
conda activate py38
conda install pandas
用读取数据,train_dir为训练集的存储路径,nrows为读取数据的行数
import pandas as pd
train_dir = '../data/train_set.csv'
nrows=None
train_df = pd.read_csv(train_dir, sep='\t', nrows=nrows)
查看前5条新闻数据
train_df.head()
label | text | |
---|---|---|
0 | 2 | 2967 6758 339 2021 1854 3731 4109 3792 4149 15... |
1 | 11 | 4464 486 6352 5619 2465 4802 1452 3137 5778 54... |
2 | 3 | 7346 4068 5074 3747 5681 6093 1777 2226 7354 6... |
3 | 2 |