NLP(VI)：使用sklearn进行文本情感分类（上）

swy_swy_swy

于 2023-03-16 10:34:18 发布

阅读量1k

点赞数 1

分类专栏： NLP 文章标签： sklearn 自然语言处理分类

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/swy_swy_swy/article/details/129578873

版权

该博客介绍了如何使用sklearn进行文本情感分类，包括获取数据、数据加载、文本向量化、训练贝叶斯和逻辑回归模型，并通过十折交叉验证寻找最佳参数，最终得到模型的准确率。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

NLP(VI)：使用sklearn进行文本情感分类（上）

这一节我们使用sklearn训练分类模型以实现对文本数据的情感分类。

获得数据

这次的数据我已经上传了，可从以下链接下载：
训练集：https://download.csdn.net/download/swy_swy_swy/87581709
测试集：https://download.csdn.net/download/swy_swy_swy/87581702
数据标签为二分类标签，0为消极情绪，1为积极情绪。

加载数据

我们使用pandas处理csv文件。

import sklearn
import pandas as pd
import numpy as np
def csv_loader(filepath):
  return pd.read_csv(filepath)

twitter_train_df = csv_loader('sentiment-train.csv')
twitter_test_df = csv_loader('sentiment-test.csv')

文本向量化

sklearn本质上是如何“阅读”一个文本呢？它本质上是不懂人类的语言的，一段文本对于它来说是一个词语的集合，或说“一袋子单词”（a bag of words)。在训练模型之前，需要对所有文本“向量化”，也就是每一个单词都有一个对应的编号，当然，相同的单词即使在统一数据集的不同样本中编号也是相同的。这样，一段文本就变成了一个编号序列，也就是一个向量。
我们使用sklearn的CountVectorizer来进行向量化：

from sklearn.feature_extraction.text import CountVectorizer
def feature_extracter(train_df, test_df, binary_flag=False, m_features=1000, has_test=True):
  vectorizer = CountVectorizer(stop_words='english', max_features=m_features, binary=binary_flag)
  train_texts = np.array(train_df['text']).tolist()
  test_texts = []
  if has_test:
    test_texts = np.array(test_df['text']).tolist()
  vecs

最低0.47元/天解锁文章

博客等级

码龄6年

1398
原创

2819
点赞

8526
收藏

1万+
粉丝

关注

私信

热门文章

分类专栏

NLP 8篇
设计模式 13篇
sml 1篇
Java || Android 74篇
机器学习 3篇
GUI 4篇
UE4 3篇
c语言 31篇
CSAPP 19篇
python 47篇
树莓派 3篇
数据科学 9篇
数学与逻辑 41篇
网络原理 20篇
数据结构 8篇
浮生日记 22篇
小问题 30篇
GIT 6篇
shell 1篇
hexo-blog-markdown 2篇
汇编 2篇
琉璃神社 908篇
A Song of Ice&Fire 111篇
Vincent's Gallery 4篇
RED NAVY FORWARD! 42篇
测试 4篇

最新评论

华为校招记录
2301_79748324: 大哥是thu的吗
Android Studio 3.6 layout文件text模式切换
wjx_666: 感谢，刚接触这个软件，找了半天
vscode报错：undefined reference to `WinMain'
q771012: 压根忘写main了
《计算机网络自顶向下方法》（第7版）答案（第一章）（一）
tough_coder: p8的第四问可以用正态分布计算出近似值
《CSAPP》（第3版）答案（第十二章）（一）
???HiHi: P16怎么可能是对的嘛 void* thread_function(void* arg) { int thread_num = *((int*)arg); printf("Thread %d is running.\n", thread_num); // 模拟一些工作 sleep(1); printf("Thread %d is finished.\n", thread_num); return NULL; } int main(int argc, char* argv[]) { if (argc != 2) { fprintf(stderr, "Usage: %s <number_of_threads>\n", argv[0]); return EXIT_FAILURE; } int n = atoi(argv[1]); if (n <= 0) { fprintf(stderr, "Please enter a valid number of threads.\n"); return EXIT_FAILURE; } pthread_t* threads = malloc(n * sizeof(pthread_t)); int* thread_ids = malloc(n * sizeof(int)); // 创建 n 个线程 for (int i = 0; i < n; i++) { thread_ids[i] = i + 1; // 线程编号从 1 开始 if (pthread_create(&threads[i], NULL, thread_function, &thread_ids[i]) != 0) { perror("Failed to create thread"); free(threads); free(thread_ids); return EXIT_FAILURE; } } // 等待所有线程完成

大家在看

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。