NLP学习笔记——在Kaggle Notebook上使用多进程加速文本预处理，节约人生

最新推荐文章于 2024-07-01 00:57:13 发布

「已注销」

最新推荐文章于 2024-07-01 00:57:13 发布

阅读量641

点赞数

分类专栏： NLP笔记文章标签： nlp 多进程 python 机器学习 cpu

本文链接：https://blog.csdn.net/Phantivia/article/details/108525009

版权

本文介绍了在Kaggle Notebook上处理NLP任务时，如何利用Python的multiprocessing库实现多进程，加速文本预处理过程。通过实例展示了在预处理大量电影评论文本时，多进程相较于单进程的显著效率提升，从而节省了大量时间。

摘要由CSDN通过智能技术生成

前情提要

在学习NLP的新手教程Bag of Words Meets Bags of Popcorn这个比赛的Overview的教程里有一个把每篇文本切分成按句划分的单词list的预处理过程，原文的代码是这样的：

sentences = []  # Initialize an empty list of sentences

print "Parsing sentences from training set"
for review in train["review"]:
    sentences += review_to_sentences(review, tokenizer)

print "Parsing sentences from unlabeled set"
for review in unlabeled_train["review"]:
    sentences += review_to_sentences(review, tokenizer)