nlp期末复习--文本分类

最新推荐文章于 2024-06-28 17:23:38 发布

xiaohuixiao！

最新推荐文章于 2024-06-28 17:23:38 发布

阅读量379

点赞数

分类专栏： nlp

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_42182596/article/details/106969121

版权

nlp 专栏收录该内容

10 篇文章 0 订阅

订阅专栏

整个文本分类问题就拆分成了特征工程和分类器两部分。

特征工程
分类器

1、特征工程

文本特征工程分为文本预处理、特征提取、文本表示三个部分。
文本预处理：
中文文本处理中主要包括文本分词和去停用词两个阶段。
特征提取：
特征选择的基本思路是根据某个评价指标独立的对原始特征项（词项）进行评分排序，从中选择得分最高的一些特征项，过滤掉其余的特征项。（TF-IDF方法）
文本表示：
文本表示的目的是把文本预处理后的转换成计算机可理解的方式，是决定文本分类质量最重要的部分。
（传统做法常用词袋模型（BOW, Bag Of Words）或向量空间模型（Vector Space Model））

2 分类器

分类器基本都是统计分类方法了，基本上大部分机器学习方法都在文本分类领域有所应用，比如朴素贝叶斯分类算法（Naïve Bayes）、KNN、SVM、最大熵和神经网络等等。

fastText模型

FastText算法原理解析
使用词袋以及n-gram袋表征语句，还有使用子词(subword)信息，并通过隐藏表征在类别间共享信息。我们另外采用了一个softmax层级(利用了类别不均衡分布的优势)来加速运算过程。

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
nlp期末复习--文本分类

整个文本分类问题就拆分成了特征工程和分类器两部分。特征工程分类器1、特征工程文本特征工程分为文本预处理、特征提取、文本表示三个部分。文本预处理：中文文本处理中主要包括文本分词和去停用词两个阶段。特征提取：特征选择的基本思路是根据某个评价指标独立的对原始特征项（词项）进行评分排序，从中选择得分最高的一些特征项，过滤掉其余的特征项。（TF-IDF方法）文本表示：文本表示的目的是把文本预处理后的转换成计算机可理解的方式，是决定文本分类质量最重要的部分。（传统做法常用词袋模型（BOW,
复制链接

扫一扫

专栏目录

博客等级

码龄6年

43
原创

35
点赞

98
收藏

16
粉丝

关注

私信

热门文章

分类专栏

OCR 4篇
人脸识别 3篇
日常学习 1篇
深度学习 9篇
论文 4篇
nlp 10篇
大数据分析 1篇
nlp文本分类 1篇
剑指刷题 7篇
nlp翻译 2篇

最新评论

使用jTessBoxEditorFX制作自己的字库
DnY>: 你好，我无法打开图片训练，请问这该怎么处理呢
bert在多分类等应用
窗台的老猫: 您好，请问MLM中那种图片中的意思，是求词汇表中所有单词的一个概率嘛
nlp-自然语言处理三大特征抽取器（CNN/RNN/TF）比较
TerryBlog: 这只是三个主流使用DL的 NMT 架构，传统方法抽取特征还是用统计ML。。。
基于图像的表情识别
keep_hardworking: 博主，有没有MMI人脸表情的数据集，快毕业写小论文要用，在官网申请好久都没有申请到账号，私信作者也邮件也被系统拒收，特别着急，有的话方便分享一下吗？

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。