python文本预处理_python学习之nltk、文本预处理

一、nltk(链接中为nltk的官方网站,包含了各种库的说明)

1、nltk.stem:词型转换,eg:from nltk.stem import WordNetLemmatizer  (do、did、done都能统一的返回do)

2、nltk.corpus:nltk的语料库,eg:from nltk.corpus import stopwords  获得英语中的停止词(比如'the'、'is'、'at'、'which'、'on'等)

二、可能用到的函数

1、os.listdir(path)

用于返回指定的文件夹包含的文件或文件夹的名字的列表。这个列表以字母顺序。 它不包括 '.' 和'..' 即使它在文件夹中。

只支持在 Unix, Windows 下使用。

2、str.strip([chars])

Python strip() 方法用于移除字符串头尾指定的字符(默认为空格)。

3、str.lower()

Python lower() 方法转换字符串中所有大写字符为小写。

4、filter(function,iterable)  (function -- 判断函数、iterable -- 可迭代对象)  返回列表

filter() 函数用于过滤序列,过滤掉不符合条件的元素,返回由符合条件元素组成的新列表。

该接收两个参数,第一个为函数,第二个为序列,序列的每个元素作为参数传递给函数进行判,然后返回 True 或 False,最后将返回 True 的元素放到新列表中。

5、map(function,iterable,...)  (function -- 函数,有两个参数、iterable -- 一个或多个序列)  返回列表

map() 会根据提供的函数对指定序列做映射。

第一个参数 function 以参数序列中的每一个元素调用 function 函数,返回包含每次 function 函数返回值的新列表。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值