从英文文章中拆分单词的方法

本文介绍了两种从英文文章中拆分单词的方法:自定义拆分字符和使用正则表达式。自定义拆分虽然代码繁琐,但能精确处理空格;而正则表达式简洁优雅,但可能无法保留空格。
摘要由CSDN通过智能技术生成

第一种方法:自定义拆分字符的方式并进行拆分

txt='''  i am the fastest man alive.
when i was eight, i was presenting to the room.'''
txt=txt+" "
#处理文本

alist=[]
#定义结果列表

pos1=-1
for i in range (0,len(txt)-1):
    if txt[i].isalpha() and not txt[i+1].isalpha() or not txt[i].isalpha() and txt[i+1].isalpha():
#定义拆分规则
        pos2=i
        alist.append(txt[pos1+1:pos2+1],)
        pos1=pos2
#pos1与pos2都是用作标记的变量
print(alist)

优点:能精准定位自己想要的部分,不会造成空格丢失。

缺点:代码比较繁琐,思维难度较高。

第二种方法:用正则表达式进行拆分

txt='''  i am the fastest man alive.
when i was eight, i was presenting to the room
i am man alive'''

blist=re.split("\W",txt)
print(blist)

优点:十分简洁,优雅。

缺点:入门较难,适用面不如上面一种方法高。

blist=['', '', 'i', 'am', 't
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值