1.python里面的lambda用法
2.python里面的map函数
3.CSV文件是什么? 逗号分隔值文件格式
意思是 用某个符号将各个字段分离开来 基本单位是各个字段
4.读写文件 python的格式是什么?
with open(' XX ' , 'XX ( rb ) ') as XX ( f / fp )
5.csv.reader用法?
reader = csv.reader(f) 此时reader返回的值是csv文件中每行的列表,将每行读取的值作为列表返回
https://blog.csdn.net/swc5285018/article/details/78967958
默认情况下,python不会跳过空格,因此需要使用skipinitalspace=true。
http://www.it1352.com/584280.html
6.
chain()
chain()
可以把一组迭代对象串联起来,形成一个更大的迭代器:
for c in itertools.chain('ABC', 'XYZ'):
print c
# 迭代效果:'A' 'B' 'C' 'X' 'Y' 'Z'
itertools.chain()
from itertools import chain
a = [1, 2, 3, 4]
b = [‘x’, ‘y’, ‘z’]
for x in chain(a, b):
… print(x)
1
2
3
4
x
y
z
7.nltk.sent_tokenize(text) #按句子分割
nltk.word_tokenize(sentence) #分词
https://blog.csdn.net/sherrylml/article/details/45196505
8.sentences = itertools.chain(*[nltk.sent_tokenize(x[0].decode('utf-8').lower()) for x in reader])
decode 以“utf-8”进行编码,lower换成小写的形式
https://blog.csdn.net/moodytong/article/details/8136258
9.nltk.FreqDist
FreqDist继承自dict,所以我们可以像操作字典一样操作FreqDist对象。
在本例中,FreqDist中的键为单词,值为单词的出现总次数。
实际上FreqDist构造函数接受任意一个列表,它会将列表中的重复项给统计起来,
在本例中我们传入的其实就是一个文本的单词列表。我们可以看看每个单词对应的出现次数:
命令行输入
https://blog.csdn.net/csdn_lzw/article/details/80390768
10.nltk的安装 直接pip install即可
11.
'data.csv','r', encoding='utf-8'
UTF-8是一种针对Unicode的可变长度字符编码
12.
str.lower()