前言:
在使用神经进行数据预处理的时候,需要获取训练数据所有用到的不重复的单词的数量,初时定义了一个函数,想要利用set来获取不重复的数量,报错list(输入的是列表嵌套列表)是不可哈希的对象。(ps:基础的列表是可以利用set函数来变成集合的比如a = [1,2,3,4])
def statistics_map(pos_list,neg_list):
sum = pos_list+neg_list
vcab = set(sum)
vcab_size = len(vcab)
return vcab_size
此时就可以使用chain函数,来讲sum的每个子列表展开,再将所有元素连接在一起,形成一个迭代器,最后再利用set转换成集合。
def statistics_map(pos_list,neg_list):
sum = pos_list+neg_list
vcab = set(chain(*sum))
vcab_size = len(vcab)
return vcab_size
定义:
chain函数是Python的itertools模块中的一个函数,它用于将多个可迭代对象(如列表、元组等)连接在一起,形成一个新的可迭代对象。这个新的可迭代对象可以逐个访问原始可迭代对象中的元素。
举个例子:
from itertools import chain
list1 = [1, 2, 3]
list2 = ['a', 'b', 'c']
list3 = [4, 5, 6]
# 使用chain函数将三个列表连接在一起
result = list(chain(list1, list2, list3))
print(result) # 输出:[1, 2, 3, 'a', 'b', 'c', 4, 5, 6]