比赛链接:
https://tianchi.aliyun.com/competition/entrance/531810/introduction
1. 赛题理解 :
零基础入门NLP - 新闻文本分类:
本文共有13个类别,是个多分类问题;
2. 数据读取与EDA:
进行了简单的数据探索,能够发现一些关联性;在想,是否能够进行更加细节的分析,挖掘深入的特征;
3.简单的文本分类
接触了TF-IDF对于词的表示方法,以及N-grams;这些都是简单的处理文本的方法
4.使用简单的深度学习模型进行训练 - fasttext
anaconda安装fasttext比较麻烦,但是可以直接安装gensim,里面有fasttext的包;
from gensim.models import FastText
5.使用word2vec进行词向量训练