使用Thuctc进行中文文本分类应用

最新推荐文章于 2024-03-29 09:37:24 发布

浅曦忆

最新推荐文章于 2024-03-29 09:37:24 发布

阅读量3.0k

点赞数

分类专栏：机器学习文章标签： thuctc 中文文本分类多标签文本分类

本文链接：https://blog.csdn.net/sinat_29673403/article/details/79526143

版权

本文介绍如何利用THUCTC进行中文文本分类，包括单分类与多分类，强调了tf-idf权重计算方法的选择，并提醒在训练模型时避免过拟合，最后分享了模型训练与预测的简单步骤，实测准确度达80%以上。

摘要由CSDN通过智能技术生成

这几个月一直在做跟机器学习相关的东西用来减轻运营在文章方面的工作量：文章自动审核及分类（单分类与多分类并存情况，及对文章进行标签化）
这里介绍的是使用Thuctc对文章进行分类，根据条件来判断多分类情况的取舍（ps：为什么不使用thuctc对文章进行审核，是因为用来训练审核的样本并不好，可能存在脏数据，而且对于关键词的标识度有所偏差，导致结果不太理想，便改用了其他方法）

首先介绍一下：THUCTC（THU Chinese Text Classification）,是由清华大学自然语言处理实验室推出的中文文本分类工具包，能够自动实现用户自定义的文本分类语料的训练、评测、分类功能。在这里我并没有使用额外的中文分词工具（例如jieba），而是用的工具包本身自带的分词，就这样就已经满足需求了。
在这里面使用的权重计算方法是tf-idf（逆文档频率）用以评估一字词对于一个文件集或一个语料库中的其中一份文件的重要程度。字词的重要性随着它在文件中出现的次数成正比增加，但同时会随着它在语料库中出现的频率成反比下降。这样我们就能获得一些频率较高的关键词，而忽略那些干扰项。
在使用样本进行训练的时候一定要非常注意不要出现过拟合现象，通俗来说就是在训练模型中使用过多参数，以致太适应训练数据而非一般情况，导致实际应用的时候，模型预测结果反而更差。当然过拟合的可能性不只取决于参数个数和数据，也跟模型架构与数据的一致性有关。此外对比于数据中预期的噪声或错误数量，跟模型错误的数量也有关。通常我们最容易注意的就是不要使正负训练样本集的大小相差过大，应该使用规模相当的正负训练样本进行训练，不至于使得训练后的模型所作出的预判更偏向于样本规模更大的样本分类，导致预测结果的偏差（原因在于对于样本规模更大的样本分类模型收集的信息更多，往往将一些可能是属于其他样本分类的数据信息也一并收入，导致结果的偏差）
好了，话不多说，让我们用用看吧，样本数据的获取就要看你自己的样本数据是怎么存放和调取的了，这个官方网站上也有对样本数据的存放的要求，在这里就不多赘述。主要是如何训练模型和预测模型的。（官方有给demo，直接拿过来学习就很够了）
首先是，训练模型：

public static void createModel(int kind, String bootPath){
        Demo d =

最低0.47元/天解锁文章

浅曦忆

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
7
评论
使用Thuctc进行中文文本分类应用

这几个月一直在做跟机器学习相关的东西用来减轻运营在文章方面的工作量：文章自动审核及分类（单分类与多分类并存情况，及对文章进行标签化）这里介绍的是使用Thuctc对文章进行分类，根据条件来判断多分类情况的取舍（ps：为什么不使用thuctc对文章进行审核，是因为用来训练审核的样本并不好，可能存在脏数据，而且对于关键词的标识度有所偏差，导致结果不太理想，便改用了其他方法）首先介绍一下：THUC...
复制链接

扫一扫