赛题数据集形式:为防止侵权等信息,使用的是匿名加密过后的新闻数据,新闻数据种类包括财经,彩票,时政,股票,家居,教育等13类,每个数据用特定的数字组合代替。
一共有200000数据集,两个测试集共有5000条数据,测试集的新闻种类已经注明,数据读取建议采用pandas进行调用,主要的工作包括特征提取,和分类。
1.特征提取
使用tf+idf进行特诊提取,tf是评价新闻类内部的字段特征值,idf是评价类组件之间的特征提取。从各个新闻中提取特征,特征值代表这条新闻的某条属性。
2.分类模型
现有成熟的分类模型有很多方法,推荐使用深度学习分类器。
详细的模型介绍资料有相应的文章,从概率论角度解释nlp技术的实现原理: