前言
在看一个聊天机器人的神经网络模型训练前准备训练数据,需要对训练材料做处理(转化成张量)需要先提炼词干,然后对词干做去重和排序
words= sorted(list(set(words)))
对这三个方法做一下整理:
1.set()
语法:set([iterable])
参数:可迭代对象(可选),a sequence (string, tuple, etc.) or collection (list, set, dictionary, etc.) or an iterator object to be converted into a set
返回值:set集合
作用:去重,因为set集合的本质是无序,不重复的集合。所以转变为set集合的过程就是去重的过程
1 # empty set
2 print(set())3
4 # from string
5 print(set('google'))6
7 # fromtuple8 print(set(('a', 'e', 'i', 'o', 'u')))9
10 # fromlist11 print(set(['g', 'o', 'o', 'g', 'l', 'e']))
12
13 # fromrange14 print(set(range(5)))
运行结果:
set(){'o', 'G', 'l', 'e',