前言:
在NLP中,对文本进行预处理时,通常会对一个句子进行词元处理,即把一个句子按某种既定的格式分成各个部分,其中通常会用到list( )和split( )这两个函数。
函数功能:
list( ):
list()
是Python的一个内置函数,用于将可迭代对象(iterable)转换为列表(list)。可迭代对象包括列表、元组、集合、字符串等。
split( ):
split()
是字符串(str)对象的一个方法,用于将字符串按照指定的分隔符(默认为空格)分割成子串,并返回一个包含分割结果的列表。
代码:
list_1 = ['i am ','you are','he is']
list_2 = [list(i) for i in list_1]
list_3 = [j.split() for j in list_1]
print(list_1)
print(list_2)
print(list_3)
运行结果:
>>>['i am ', 'you are', 'he is']
[['i', ' ', 'a', 'm', ' '], ['y', 'o', 'u', ' ', 'a', 'r', 'e'], ['h', 'e', ' ', 'i', 's']]
[['i', 'am'], ['you', 'are'], ['he', 'is']]
可以看到,对于字符串,list()函数是将字符串中的每个字符作为一个元素存入一个列表中。而对于split()则是按照分隔符(此处为空格)将一个句子分成各个部分并存入一个列表中。
如有问题,欢迎私信或评论区讨论。