python split 多个分隔符_Python机器学习:使用Python进行基本文本处理

使用Python进行基本文本处理

本文摘自《Python机器学习》一书

a7e43116a8fdb455aa46282f8d4ccc98.png

文本可以分成不同的基元。

  • 文件。
  • 句子。
  • 单词。
  • 字符。

文档是文本的集合。它包含句子,每个句子由单词组成,每个单词由字符组成。这些是在本章中使用的一些基本的文本原语。

首先,从Python中的一些基本的文本处理操作开始。

在Python中,字符串可以用引号或双引号声明。

text1 = "The Vikram Sarabhai Space Centre is a space research Centre of the ISRO, focused on rocket and space vehicles"

可以通过使用len( )函数来获取字符串的长度,它将返回字符串中的字符总数。

len(text1)

输出:109

如果想要得到字符串中单词的数量,首先需要分割字符串并计算单词数量,这可以通过使用split()函数来完成。 split()函数需要一个分隔符,通过该分隔符将字符串拆分为多个单词。

words1 = text1.split(" ") len(words1)

输出:19

也可以通过索引来获取子字符串,在Python中索引从0开始,这意味着可以通过text1 [0]访问第一个字符。

print(text1[4]) print(text1[4:10])

输出:V

Vikram

在字符串中使用不同的操作符以获得不同的结果,它们称为字符串特殊操作符,如表1.1所列。

表1.1

a0319ae71c3c8c3fc18b1bf3a910c49c.png

1.1.1 字符串比较

表1.2所列的这些函数根据在字符串上执行的操作返回布尔值(True / False)。

表1.2

7fcee3b27e645cd4a6cb80637972432a.png
#获取所有首字母为大写的单词[wordCap for wordCap in words1 if wordCap.istitle()] #长度大于5的单词[wordG5 for wordG5 in words1 if len(wordG5)>5]

1.1.2 字符串转换

表1.3所列的这些预定义的函数集用于字符串转换。

表1.3

955d27f66dbf61ef555eddaabc5de272.png

1.1.3 字符串操作

字符串操作的相关函数如表9.4所列。

表1.4

97036859a617d3a19cba8a9bfb378044.png

大写文本。

text1.capitalize()

获取标题表单。

text1.title()

大写。

text1.upper()

对字符串的大小写字母进行转换。

text1.swapcase()

将字符串中所有大写字符转换为小写字符。

text1.casefold()

获取索引。

text1.index('a')

从左边查找。

text1.find('a')

从右侧查找。

text1.rfind('a')

按照行分割。

text1.splitlines()

删除字符串左侧的“The”。

text1.lstrip("The")
8e336e28cd177dbaf1d118f01f04c70d.png

End

喜欢的朋友请转发到朋友圈

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值