python ：中英文文本预处理（包含去标点分词词干提取）

最新推荐文章于 2024-06-26 20:13:04 发布

weixin_43216017

最新推荐文章于 2024-06-26 20:13:04 发布

阅读量2w

点赞数 32

分类专栏：机器学习 python 编程文章标签：文本处理去标点分词提取词干

本文链接：https://blog.csdn.net/weixin_43216017/article/details/88324093

版权

在文本分析前，通常需要进行文本预处理，包括英文的大小写转换、标点处理、分词、去除停用词和词干提取，以及中文的标点处理和分词。Python中，可以使用nltk和jieba等库进行这些操作。

摘要由CSDN通过智能技术生成

python ：中英文文本预处理（包含去标点/分词/词干提取）

在做文本分析之前，一般我们都需要进行文本的预处理。这一步其实和做数据时的数据清洗非常的相像。在对文本进行清洗的时候，我们需要分成中文和英文两种语言来进行，因为语言的不同，我们需要进行的操作也不同：

英文：大小写的处理，标点符号的处理，文本的分词，去除停用词，以及词干的提取(cleaning提取成clean)
中文：标点符号的处理，文本的分词

下面我们分开来记述操作！~

文章目录

- - python ：中英文文本预处理（包含去标点/分词/词干提取）

英文的处理

python包：nltk+string

text = 'Natural language processing (NLP) Is A SuBfield Of Computer scIence, inFormation eNgineering, and artificial intelligence concerned with the interactions between computers and human (natural) languages, in particular how to program computers to process and analyze large amounts of natural language data!?!!....'

以上文本选自wikipedia的nlp介绍，为了测试效果，我自己把小写改成了大写，添加了几个标点。

大小写转换

操作过程一般都是大写字母转换成小写字母，毕竟表示的是一个意思。

#转换成小写
lower = text.lower()

标点符号的处理

如果不处理标点符号的话，那么在分词的时候标点也会占用一个位置，但是这个位置是没有意义的，所以，我们要把标点也去除。需要注意的是，下面的方法只能处理英文的标点。

import string
#string.punctuation中包含英文的标点，我们将其放在待去除变量remove中
#函数需要三个参数，前两个表示字符的映射，我们是不需要的。
remove = str.maketrans('',

最低0.47元/天解锁文章

weixin_43216017

关注

32
点赞
踩
155

收藏

觉得还不错? 一键收藏
8
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录