1.本文主要是关于达观杯的文本分类问题,这是自然语言处理领域里最基本的一项任务。这是Joey上课内容。
2.传统的监督学习模型对一段文本进行分类的过程:一段原始文本处理后的文本特征y=f(x1,x2,...,)类别。
3.目的是求一个机器学习模型,使得分类更加准确;
4.具体的代码如下:
import pandas as pd
from sklearn.linear_model import LogisticRegression
from sklearn.feature_extraction.text import CountVectorizer
df_train=pd.read_csv('D:/python/v0.0/train_set.csv')
df_test=pd.read_csv('D:/python/v0