文本分类
小果一粒沙
To be brave.
展开
-
文本分类流程(一)文本分类的大致步骤+数据爬取+数据预处理------毕业论文的纪念
本文主要介绍文本分类的前几个步骤,数据获取+数据清洗下一个模块会开始讲解文本文本数据到数值数据的过渡,将文本数据转化为数值数据,并且提取转化后的特征,降维,输入到文本分类器中进行训练、测试、评估。文本分类的基本步骤:1.数据获取方法:网页爬虫,使用别人的代码或者自己写代码(GitHub上找有没有你需要的)2.数据清洗方法:去重,去除重复的评论。如果数据抓取的好,则可以不用执行这一步...原创 2019-05-25 12:09:30 · 16492 阅读 · 12 评论 -
文本分类(二)文本数据数值化,向量化,降维
前言上面一篇博客文本分类流程(一)文本分类的大致步骤+数据预处理------毕业论文的纪念已经讲述了文本处理中的两个步骤,网页获取+数据清洗,得到了干净的文本数据。下面开始介绍如何将我们能够识别的文本数据转化为机器可以识别的数值数据(向量)我们知道机器能够对数值数据使用各种公式,它只能够识别这些,所以我们就开始着手将我们所获取到的文本数据转化为数值数据。以下简单的介绍一些我所知道的三种文本...原创 2019-05-25 17:14:55 · 13161 阅读 · 0 评论 -
文本分类(四)--分类好坏的评价
所使用的主要有四个评价的标准,根据不同的分类情况,有的单独分析,有的综合着来看。这四个评估标准分别是Accuracy, Precision, Recall, f1-score.我自己对他们的理解:Accuracy(准确率):(TP+TN)/(TP+TN+FP+FN)综合分类正确的概率,综合是指正类和负类被分类正确的概率Precision(精确率):TP/(TP+FP) or TN/(T...原创 2019-05-26 17:21:28 · 3165 阅读 · 1 评论