Life is tooooo short , you need python.
这两天看了下nltk(Natural Language Processing Toolkit)工具包,在感受着其强大功能的时。An idea comming ,既然这是一个工具,那能不能真正的用起来了。那么前段时间看到晚上一些关于统计字符的样题,不是可以完美匹配嘛。
下面是一个小样例:
from nltk import *
import glob
files = glob.glob("/Users/thunder/Desktop/show-me-the-code/0006/*.txt")
for file in files:
print(file)
with open(file, "r", encoding="GB18030") as f:
str = f.read() #读出的文本 是字符串
sents_list = sent_tokenize(str) #sent_tokenize() 将一段文字 分句,列表存储 sentence
#print(sents)