python :中英文文本预处理(包含去标点分词词干提取)

python :中英文文本预处理(包含去标点/分词/词干提取)

       在做文本分析之前,一般我们都需要进行文本的预处理。这一步其实和做数据时的数据清洗非常的相像。在对文本进行清洗的时候,我们需要分成中文和英文两种语言来进行,因为语言的不同,我们需要进行的操作也不同:

  1. 英文:大小写的处理,标点符号的处理,文本的分词,去除停用词,以及词干的提取(cleaning提取成clean)
  2. 中文:标点符号的处理,文本的分词

       下面我们分开来记述操作!~


英文的处理

python包:nltk+string

text = 'Natural language processing (NLP) Is A SuBfield Of Computer scIence, inFormation eNgineering, and artificial intelligence concerned with the interactions between computers and human (natural) languages, in particular how to program computers to process and analyze large amounts of natural language data!?!!....'

以上文本选自wikipedia的nlp介绍,为了测试效果,我自己把小写改成了大写,添加了几个标点。

大小写转换

操作过程一般都是大写字母转换成小写字母,毕竟表示的是一个意思。

#转换成小写
lower = text.lower()
标点符号的处理

如果不处理标点符号的话,那么在分词的时候标点也会占用一个位置,但是这个位置是没有意义的,所以,我们要把标点也去除。需要注意的是,下面的方法只能处理英文的标点。

import string
#string.punctuation中包含英文的标点,我们将其放在待去除变量remove中
#函数需要三个参数,前两个表示字符的映射,我们是不需要的。
remove = str.maketrans('',
  • 32
    点赞
  • 155
    收藏
    觉得还不错? 一键收藏
  • 8
    评论
Python是一种强大而流行的编程语言,广泛用于数据处理和文本分析。英文文本预处理是指在对英文文本进行分析之前对其进行必要的处理和清洗。以下是用Python进行英文文本预处理的一些常见步骤: 1. 去除标点符号:使用Python中的正则表达式或字符串处理函数,去除文本中的标点符号,例如逗号、句号等。这可以避免标点符号对后续分析和处理的干扰。 2. 分词英文文本通常通过空格来区分单,因此可以使用Python中的split()函数或第三方库(如NLTK)来将文本分割成单个单。这一步骤很重要,因为在后续的文本分析中,单是最基本的处理单位。 3. 去除停用:停用是指在文本分析中不被考虑的常见单,如"the"、"is"等。Python的NLTK库提供了一个预定义的停用列表,可以使用它来去除文本中的停用。 4. 文本转小写:统一将文本转换为小写字母形式,这样可以避免针对大小写进行不必要的区分分析。 5. 词干提取:将单还原为其原始形式,例如将"running"还原为"run"。Python的NLTK库提供了一些词干提取的方法,如Porter词干提取器。 6. 袋模型:将文本转换为数值表示,用于后续的机器学习和文本分析。一种常见的方法是使用袋模型,将每个文本表示为单的频率向量。Python的Scikit-learn库提供了TF-IDF向量化器,可以实现这一功能。 以上是对英文文本预处理的一些常见步骤,可以根据具体需求和任务进行适当的调整和拓展。Python提供了丰富的文本处理工具和库,使得英文文本预处理变得更加高效和便捷。
评论 8
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值