一、nltk(链接中为nltk的官方网站,包含了各种库的说明)
1、nltk.stem:词型转换,eg:from nltk.stem import WordNetLemmatizer (do、did、done都能统一的返回do)
2、nltk.corpus:nltk的语料库,eg:from nltk.corpus import stopwords 获得英语中的停止词(比如'the'、'is'、'at'、'which'、'on'等)
二、可能用到的函数
1、os.listdir(path)
用于返回指定的文件夹包含的文件或文件夹的名字的列表。这个列表以字母顺序。 它不包括 '.' 和'..' 即使它在文件夹中。
只支持在 Unix, Windows 下使用。
2、str.strip([chars])
Python strip() 方法用于移除字符串头尾指定的字符(默认为空格)。
3、str.lower()
Python lower() 方法转换字符串中所有大写字符为小写。
4、filter(function,iterable) (function -- 判断函数、iterable -- 可迭代对象) 返回列表
filter() 函数用于过滤序列,过滤掉不符合条件的元素,返回由符合条件元素组成的新列表。
该接收两个参数,第一个为函数,第二个为序列,序列的每个元素作为参数传递给函数进行判,然后返回 True 或 False,最后将返回 True 的元素放到新列表中。
5、map(function,iterable,...) (function -- 函数,有两个参数、iterable -- 一个或多个序列) 返回列表
map() 会根据提供的函数对指定序列做映射。
第一个参数 function 以参数序列中的每一个元素调用 function 函数,返回包含每次 function 函数返回值的新列表。