Task3
基于机器学习的文本分类
在本章我们将开始使用机器学习模型来解决文本分类。机器学习发展比较广,且包括多个分支,本章侧重使用传统机器学习,从下一章开始是基于深度学习的文本分类。
学习目标
- 学会TF-IDF的原理和使用
- 使用sklearn的机器学习模型完成文本分类
机器学习模型
机器学习是对能通过经验自动改进的计算机算法的研究。机器学习通过历史数据训练出模型对应于人类对经验进行归纳的过程,机器学习利用模型对新数据进行预测对应于人类利用总结的规律对新问题进行预测的过程。
机器学习有很多种分支,对于学习者来说应该优先掌握机器学习算法的分类,然后再其中一种机器学习算法进行学习。由于机器学习算法的分支和细节实在是太多,所以如果你一开始就被细节迷住了眼,你就很难知道全局是什么情况的。
如果你是机器学习初学者,你应该知道如下的事情:
- 机器学习能解决一定的问题,但不能奢求机器学习是万能的;
- 机器学习算法有很多种,看具体问题需要什么,再来进行选择;
- 每种机器学习算法有一定的偏好,需要具体问题具体分析;
文本表示方法 Part1
在机器学习算法的训练过程中,假设给定$N$个样本,每个样本有$M$个特征,这样组成了$N×M$的样本矩阵,然后完成算法的训练和预测。同样的在计算机视觉中可以将图片的像素看作特征,每张图片看作hight×wi