自然语言处理（三）： Text Classification-CSDN博客

本文链接：https://blog.csdn.net/Abner98414/article/details/129478706

本文介绍了文本分类的基本概念和常见任务，如主题分类和情感分析。讨论了多种分类算法的优缺点，包括朴素贝叶斯、逻辑回归、支持向量机、决策树、随机森林和神经网络，并强调了超参数调优的重要性。此外，还提到了评估指标如准确率、精确率、召回率和F1分数。最后指出，良好的数据注释和丰富的数据集对于取得好结果至关重要。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

1. Classification

1.1 Text Classification Tasks

2. Algorithms for Classification

2.1 Choosing a Classification Algorithm

2.2 Naïve Bayes

2.3 Logistic Regression

2.4 Support Vector Machines

2.5 K-Nearest Neighbour

2.9 Hyper-parameter Tuning

3. Evaluation

3.1 Accuracy

3.2 Precision & Recall

3.3 F(1)-score

4. A Final Word

1. Classification

Input

A document d
- Often represented as a vector of features 通常表示为一个特征向量
A fixed output set of classes C = {c1,c2,…ck}
- Categorical, not continuous (regression) or ordinal (ranking) 分类的，不是连续的（回归）或顺序的（排名）。

Output

A predicted class c ∈ C

1.1 Text Classification Tasks

一些常见的例子

主题分类 Topic classification
情感分析 Sentiment analysis
本土语言识别 Native-language identification
自然语言推理 Natural language inference
自动事实核查 Automatic fact-checking
释义 Paraphrase

输入可能不是一个长的文件

句子或推文级情感分析

2. Algorithms for Classification

2.1 Choosing a Classification Algorithm

Bias vs. Variance
- Bias: assumptions we made in our model 我们在模型中所作的假设
- Variance: sensitivity to training set 对训练集的敏感性
Underlying assumptions, e.g., independence
Complexity
Speed