NLP_情感分类_数据清洗

最新推荐文章于 2024-09-11 16:10:06 发布

you_are_my_sunshine*

最新推荐文章于 2024-09-11 16:10:06 发布

阅读量738

点赞数 15

分类专栏： NLP 文章标签：自然语言处理分类人工智能

本文链接：https://blog.csdn.net/weixin_42504788/article/details/141095603

版权

NLP 专栏收录该内容

25 篇文章 1 订阅

订阅专栏

文章目录

项目背景
数据清洗
同类型项目

项目背景

项目的目的，是为了对情感评论数据集进行预测打标。在训练之前，需要对数据进行数据清洗环节，下面对数据集进行清洗，清洗完，后续再进行训练、评估

数据清洗

导包

import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
from tqdm import tqdm
import pickle
import numpy as np
import gc
import swifter
import os

导入数据

df = pd.read_csv('data/sentiment_analysis.csv')
df

在这里插入图片描述

查看标签分布

# 设置Seaborn的样式
sns.set(style="whitegrid")

# 创建一个计数图
plt.figure(figsize=(8, 6))
sns.countplot(x='label', data=df, palette='viridis')

# 添加标题和标签
plt.title('Label Distribution')
plt.xlabel('Label')
plt.ylabel('Count')

# 显示图形
plt.show()

在这里插入图片描述

删除emoji表情

import re
from cleantext import clean

df['text'] = df['text'].swifter.apply(clean)

在这里插入图片描述

删除URL

df['text'] = df['text'].swifter.apply(lambda x: re.sub(r'http\S+', '', x))

在这里插入图片描述

转换成小写

df['text'] = df['text'].swifter.apply(lambda x: x.lower())

在这里插入图片描述

删除停用词

import nltk
from nltk.corpus import stopwords

stopwords=set(stopwords.words('english'))

def remove_stopwords(data):
    output_array=[]
    for sentence in tqdm(data):
        temp_list=[]
        for word in sentence.split():
            if word not in stopwords:
                temp_list.append(word)
        output_array.append(' '.join(temp_list))
    return output_array

df['text'] = remove_stopwords(df['text'])

在这里插入图片描述

删除标点符号

import string

df['text'] = df['text'].swifter.apply(lambda x: x.translate(str.maketrans('', '', string.punctuation)))

在这里插入图片描述

保存清洗后的数据

df.to_csv('data/sentiment_analysis_clean.csv',index=False)

NLP_情感分类_数据清洗

文章目录

项目背景

数据清洗

导包

导入数据

查看标签分布

删除emoji表情

删除URL

转换成小写

删除停用词

删除标点符号

保存清洗后的数据

同类型项目