自然语言处理-文本分类

qq_32899201

于 2018-07-05 15:52:23 发布

阅读量1.7k

点赞数

分类专栏：技术博文文章标签： NLP 文本分类

技术博文专栏收录该内容

7 篇文章 0 订阅

订阅专栏

一、模型的选择

①特征数量很多，和样本数量差不多，选择逻辑回归（LR）或线性支持向量机（SVM）。

②特征数量比较小，样本数量一般，不大也不小，选择SVM的高斯核函数版本。

③数据量非常大，又非线性，使用决策树（DT）的升级版本-随机森林。

④数据量巨大，特征向量也非常大，用神经网络深度学习模型。

二、大致步骤

1）定义阶段：定义数据以及分类体系，具体分为哪些类别，需要哪些数据。

2）数据预处理：对文档做分词、去停用词等准备工作。

3）数据提取特征：对文档矩阵进行降维，提取训练集中最有用的特征。

4）模型训练阶段：选择具体的分类模型以及算法，训练出文本分类器。

5）评测阶段：在测试集上测试并评价分类器性能。

6）应用阶段：应用性能最高的分类模型对文本进行分类。

更详细的文本分类模型描述

文本分类解决方法综述

https://www.cnblogs.com/sxron/p/7742692.html

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

博客等级

码龄9年

3
原创

12
点赞

64
收藏

6
粉丝

关注

私信

热门文章

分类专栏

技术博文 7篇

最新评论

递归算法和经典递归例子
ByteMu: [code=java] @Test public void test111() { String[] a = {"a1", "a2", "a3", "b3", "a1", "c", "b", "33", "33"}; List fun = fun(0, a, new ArrayList<>()); System.out.println("有重复的字符：" + fun); } public List fun(int n, String[] a, List<String> list) { if (n > -1 && n < a.length) { for (int i = n; i < a.length - 1; i++) { System.out.println(n + "--" + (i + 1)); if (a[n].equals(a[i + 1])) { list.add(a[n]); System.out.println("存在相同字符"); System.out.println(a[n]); } } n++; return fun(n, a, list); } else { return list; } } [/code]
递归算法和经典递归例子
BAOYANG dl: 最后那个你写了个无线循环，建议改成有返回值的，用return破开循环

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。