零基础入门NLP - 新闻文本分类(三、基于机器学习的文本分类)

最新推荐文章于 2022-09-27 14:56:02 发布

FunYoung0407

最新推荐文章于 2022-09-27 14:56:02 发布

阅读量312

点赞数

分类专栏： NLP 文章标签： python 自然语言处理

本文链接：https://blog.csdn.net/a6368533/article/details/107584892

版权

本文介绍了NLP中文本表示方法，包括one-hot、count vectors、n-gram和重点讲解的tf-idf。接着讨论了如何使用机器学习进行文本分类，并给出了调参和更换模型的作业建议，如调整TF-IDF参数，尝试不同机器学习模型，以及停用词的处理等。

摘要由CSDN通过智能技术生成

一、文本表示方法

one-hot
count vectors
n-gram
tf-idf(重点）

tf-idf

TF-IDF 分数由两部分组成：第一部分是词语频率（Term Frequency），第二部分是逆文档频率（Inverse Document Frequency）。其中计算语料库中文档总数除以含有该词语的文档数量，然后再取对数就是逆文档频率。

TF(t)= 该词语在当前文档出现的次数 / 当前文档中词语的总数
IDF(t)= $log_e（文档总数 / 出现该词语的文档总数)$

二、用机器学习做文本分类

# Count Vectors + RidgeClassifier

import pandas as pd

from sklearn.feature_extraction.text import CountVectorizer
from sklearn.linear_model import RidgeClassifier

最低0.47元/天解锁文章

FunYoung0407

关注

0
点赞
踩
3

收藏

觉得还不错? 一键收藏
0
评论
零基础入门NLP - 新闻文本分类(三、基于机器学习的文本分类)

基于机器学习的文本分类一、文本表示方法tf-idf二、用机器学习做文本分类三、作业1、调参2、换模型一、文本表示方法one-hotcount vectorsn-gramtf-idf(重点）tf-idfTF-IDF 分数由两部分组成：第一部分是词语频率（Term Frequency），第二部分是逆文档频率（Inverse Document Frequency）。其中计算语料库中文档总数除以含有该词语的文档数量，然后再取对数就是逆文档频率。TF(t)= 该词语在当前文档出现的次数 / 当前文
复制链接

扫一扫

专栏目录