python :中英文文本预处理(包含去标点分词词干提取)

在文本分析前,通常需要进行文本预处理,包括英文的大小写转换、标点处理、分词、去除停用词和词干提取,以及中文的标点处理和分词。Python中,可以使用nltk和jieba等库进行这些操作。
摘要由CSDN通过智能技术生成

python :中英文文本预处理(包含去标点/分词/词干提取)

       在做文本分析之前,一般我们都需要进行文本的预处理。这一步其实和做数据时的数据清洗非常的相像。在对文本进行清洗的时候,我们需要分成中文和英文两种语言来进行,因为语言的不同,我们需要进行的操作也不同:

  1. 英文:大小写的处理,标点符号的处理,文本的分词,去除停用词,以及词干的提取(cleaning提取成clean)
  2. 中文:标点符号的处理,文本的分词

       下面我们分开来记述操作!~


英文的处理

python包:nltk+string

text = 'Natural language processing (NLP) Is A SuBfield Of Computer scIence, inFormation eNgineering, and artificial intelligence concerned with the interactions between computers and human (natural) languages, in particular how to program computers to process and analyze large amounts of natural language data!?!!....'

以上文本选自wikipedia的nlp介绍,为了测试效果,我自己把小写改成了大写,添加了几个标点。

大小写转换

操作过程一般都是大写字母转换成小写字母,毕竟表示的是一个意思。

#转换成小写
lower = text.lower()
标点符号的处理

如果不处理标点符号的话,那么在分词的时候标点也会占用一个位置,但是这个位置是没有意义的,所以,我们要把标点也去除。需要注意的是,下面的方法只能处理英文的标点。

import string
#string.punctuation中包含英文的标点,我们将其放在待去除变量remove中
#函数需要三个参数,前两个表示字符的映射,我们是不需要的。
remove = str.maketrans('',
评论 8
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值