浅谈NLP 文本分类/情感分析任务中的文本预处理工作

最新推荐文章于 2024-05-22 18:53:14 发布

shiningrain3

最新推荐文章于 2024-05-22 18:53:14 发布

阅读量1.1k

点赞数 1

分类专栏： NLP笔记文章标签：自然语言处理 nlp 深度学习机器学习

本文链接：https://blog.csdn.net/qq_43678628/article/details/109209887

版权

本文探讨NLP文本分类任务中预处理的重要性，介绍常见方法如分词、去除标点，并分析在BERT模型FineTune阶段预处理的影响。实验表明，过度预处理可能破坏BERT模型的上下文语义，导致训练效果下降。

摘要由CSDN通过智能技术生成

文章目录

浅谈NLP 文本分类/情感分析任务中的文本预处理工作

浅谈NLP 文本分类/情感分析任务中的文本预处理工作

前言

之所以心血来潮想写这篇博客，是因为最近在关注NLP文本分类这类任务中的文本预处理工作，想总结一下自己的所学所想，老规矩，本博文记载仅供备忘与参考，不具备学术价值，本文默认使用python3编程（代码能力是屎山级别的，请谅解），默认文本为英文，代码主要使用Pytorch（博主老笨蛋了，之前一直执迷不悟用Keras，现在刚刚开始用torch，怎么说呢，挺香的 XD）

NLP相关的文本预处理

NLP文本预处理一直是一个很受关注的问题，当下最常用的文本预处理工具当属nltk，功能统一，api也很简单，安装的话直接输入：

pip install nltk
python#进入python
import nltk
nltk.download()#下载需要的内容

一般来讲，最简单最常见的预处理就是把一整段文本分词化（Tokenize），对于一段文本（Sentence），可以直接调用nltk库功能将其分词化，返回结果为一个词表（word list）。

import nltk# 为方便，任何import都只在所有代码块中出现一遍，以后的也同理
word_list=nltk.word_tokenize(sentence)

一般来讲在预处理数据的时候还会选择去除标点以及不需要的url等等内容，因此我在自己做实验的时候选择使用以下配置来作为基础的预处理方法。

import string
import re

PUNCT_TO_REMOVE = string.punctuation
url_pattern = re.compile(r'https?://\S+|www\.\S+')
sentence=url_pattern.sub(r'', sentence)
#remove punc
sentence=sentence.translate(str.maketrans('', '', PUNCT_TO_REMOVE))
tmp_word_list=nltk.word_tokenize(sentence)
word_list=[]
for word in tmp_word_list:    
    #lower       
    word=word.lower()
    word_list.append(word)

事实上，文本预处理的方法是非常多样的，根据下边代码块中的参考内容链接，你可以找到各种各样数十种有针对性或者泛用的预处理方法，有的是为了处理Twitter中的一些tag，有的是是为了对文本进行词根化，有的是为了将双重否定转换成肯定……总而言之，**一切预处理方法都是为了使得NLP任务更好地被执行，使得数据集更容易也更好地被训练。因此在我们针对NLP任务选择预处理方法时也应当注意选择合适的方法。**如果我们在一个新闻数据集中使用去除Twitter中tag的预处理方法进行处理的话只会浪费时间。

# 参考链接
https://medium.com

最低0.47元/天解锁文章

shiningrain3

关注

1
点赞
踩
5

收藏

觉得还不错? 一键收藏
0
评论
浅谈NLP 文本分类/情感分析任务中的文本预处理工作

文章目录浅谈NLP 文本分类/情感分析任务中的文本预处理工作前言NLP相关的文本预处理浅谈NLP 文本分类/情感分析任务中的文本预处理工作前言之所以心血来潮想写这篇博客，是因为最近在关注NLP文本分类这类任务中的文本预处理工作，想总结一下自己的所学所想，老规矩，本博文记载仅供备忘与参考，不具备学术价值，本文默认使用python3编程（代码能力是屎山级别的，请谅解），默认文本为英文，代码主要使用Pytorch（博主老笨蛋了，之前一直执迷不悟用Keras，现在刚刚开始用torch，怎么说呢，挺香的 X
复制链接

扫一扫