摘 要
本次课程设计的目的是能够学会利用numpy、pandas等python中常用的数据分析库做数据分析,所以我选择了kaggle竞赛上的一道题目来做练习:电影评论分类,地址:https://www.kaggle.com/c/word2vec-nlp-tutorial 。本次课程设计主要用到的文本预处理有网页解析,文本抽取,正则表达式等。
一、实验目的
利用提供的训练数据集训练学习模型,训练完成后,使之能够对测试集中的评论进行正确的分类。
本次课程设计的目的是能够学会利用numpy、pandas等python中常用的数据分析库做数据分析,所以我选择了kaggle竞赛上的一道题目来做练习:电影评论分类,地址:https://www.kaggle.com/c/word2vec-nlp-tutorial 。本次课程设计主要用到的文本预处理有网页解析,文本抽取,正则表达式等。
利用提供的训练数据集训练学习模型,训练完成后,使之能够对测试集中的评论进行正确的分类。