文本预处理中list( )和split( )的区别

前言:

在NLP中,对文本进行预处理时,通常会对一个句子进行词元处理,即把一个句子按某种既定的格式分成各个部分,其中通常会用到list( )和split( )这两个函数。

函数功能:

list( ):

list() 是Python的一个内置函数,用于将可迭代对象(iterable)转换为列表(list)。可迭代对象包括列表、元组、集合、字符串等。

split( ):

split() 是字符串(str)对象的一个方法,用于将字符串按照指定的分隔符(默认为空格)分割成子串,并返回一个包含分割结果的列表。

代码:

list_1 = ['i am ','you are','he is']
list_2 = [list(i) for i in list_1]
list_3 = [j.split() for j in list_1]

print(list_1)
print(list_2)
print(list_3)

运行结果:

>>>['i am ', 'you are', 'he is']
[['i', ' ', 'a', 'm', ' '], ['y', 'o', 'u', ' ', 'a', 'r', 'e'], ['h', 'e', ' ', 'i', 's']]
[['i', 'am'], ['you', 'are'], ['he', 'is']]

可以看到,对于字符串,list()函数是将字符串中的每个字符作为一个元素存入一个列表中。而对于split()则是按照分隔符(此处为空格)将一个句子分成各个部分并存入一个列表中。


如有问题,欢迎私信或评论区讨论。

  • 10
    点赞
  • 4
    收藏
    觉得还不错? 一键收藏
  • 1
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值