1.字符串和字符
1.1 什么是字符串(str)
字符串是容器型数据类型, 将单引号或者双引号作为容器的标志, 元素不需要用逗号隔开: ‘元素1元素2元素3…’
字符串是不可变的(不支持增删改);字符串是有序的(支持下标操作)
字符串中的元素: 只能是文本符号(所有计算机能表达出来的符号都可以作为字符串的元素),一个符号对应一个元素
‘湖北’, ‘abcn’,’!@#$%’, ‘↑♦’, ‘123456’
字符串中每一个独立的元素又叫:字符;python中只有字符的概念,但是没有字符对应的数据类型
空串:
str1 = ''
str2 = ""
str3 = ''''''
str4 = """"""
print(type(str1), type(str2), type(str3), type(str4))
非空字符串:
str11 = 'abc'
str22 = "你好"
str33 = '''你好,hello'''
str44 = """123,hai"""
1.2 字符(字符串中的元素)
字符串中的字符分两种:普通字符、转义字符
1)普通字符 - 除了转义字符串以外的字符
2)转义字符 - 在指定符号前加\用来表示一些特殊功能和特殊意义的字符
\n - 换行
\t - 制表符(按tab键)
’ - 单引号
" - 双引号
\ - 反斜杠
编码字符:\u4位的十六进制
str1 = '\tabc\n123'
print(str1)
str2 = 'abc\'123'
str3 = "abc\"123"
str4 = 'abc\\n123'
print(str4)
这儿 \u4e00 和 \u7800 都是转义字符中的编码字符
str5 = '\u4e00你好!\u7800'
print(str5, len(str5))
注意: 计算字符串长度的时候,一个转义字符的长度是1
- 阻止转义(r/R语法)
在字符串的最前面加 r/R , 那么这个字符串中的所有的转义字符都无效
str6 = r'\tabc\n123\u4e00'
print(str6)
应用1:windows路径
path = r'c\nan\temp'
print(path)
应用2:正则表达式式
2.字符编码
2.1 什么是字符编码
在Python3中,所有的字符串都是Unicode字符串
计算机在存储数据的时候只能存数字,而且存的是数字的补码
为了能够让计算机存储文本数据,给每个字符关联了一个固定的数字,用来对这个字符进行存储。每个字符关联的那个数字就是这个字符的编码值。
2.2 编码表
1)ASCII码表:用1个字节来对字符进行编码(码值范围:0 ~ 127)
a.数字在字母的前面(字符0~字符9的编码值连续递增)
b.大写字母在小写字母的前面(字母之间是连续递增)
c.大写字母和小写字母之间有其他的符号(不连续)
2)Unicode编码表
Unicode编码表是对ASCII表的扩展(Unicode编码表中包含了ASCII表中所有的符号)
Unicode编码表中包含了世界上所有国家所有民族所有的语言的符号,总共65536个
中文范围:4e00 ~ 9fa5
1)chr函数
chr(编码值) - 获取指定编码值对应的字符
print(chr(0x0F00))
for x in range(0x0F00, 0x0FFF):
print(chr(x), end=',')
print()
打印所有的中文
count = 0
for x in range(0x4e00, 0x9fa5):
print(chr(x), end=' ')
count += 1
if count % 40 == 0:
print()
print()
- ord函数
ord(字符) - 获取指定字符对应的编码值
print(ord('余'), ord('婷'))
- 编码字符
str1 = '\u4e00你好!'
print(str1)
3.字符串相关操作
3.1 获取字符串中的元素(获取字符)
字符串获取元素和列表获取元素的语法一样
str1 = 'how are you!'
1)获取单个元素
print(str1[2])
print(str1[-1])
- 切片
print(str1[1:5]) # 'ow a'
print(str1[-3::-1]) # 'oy era woh'
- 遍历
for x in str1:
print(x)
for index in range(len(str1)):
print(str1[index])
3.2 +, *
字符串1 + 字符串2
字符串 * N / N * 字符串
str1 = 'abc'
str2 = '123'
print(str1 + str2) # abc123
print(str1 * 2) # abcabc
3.3 ==, !=
print(str1 == 'abc') # True
print(str1 == 'bac') # False
3.4 >, <, >=, <= (针对两个字符串)
两个字符串比较大小: 比较的是第一组不相等的字符的编码值的大小
str3 = 'zABC'
str4 = 'z1bcd'
print(str3 > str4) # True
应用:
判断是否是数字字符: ‘0’ <= char <= ‘9’
判断是否是小写字母:‘a’ <= char <= ‘z’
判断是否是大写字母:‘A’ <= char <= ‘Z’
判断是否是字母:‘a’ <= char <= ‘z’ or ‘A’ <= char <= ‘Z’
判断是否是中文字符: ‘\u4e00’ <= char <= ‘\u9fa5’
练习1:输入一个字符串,统计字符串中字母和中文的个数
str6 = 'hello, 你好吗?'
count1 = 0
count2 = 0
for x in str6:
if 'a' <= x <= 'z' or 'A' <= x <= 'Z':
count1 += 1
elif '\u4e00' <= x <= '\u9fa5':
count2 += 1
print('字母的个数:', count1, '中文的个数:', count2)
练习2:判断输入的字符串是否是纯数字字符串
str7 = '728373'
for x in str7:
if not '0' <= x <= '9':
print('不是纯数字字符串')
break
else:
print('是纯数字字符串')
3.5 in 和 not in
字符串1 in 字符串2 - 判断字符串1是否是字符串2的子串
print('abc' in 'acbmn') # False
print('abc' in 'abcmn') # True
print('m' in 'abcmn') # True
3.6 相关函数
max/min/sorted/reversed等,这些函数都适用于字符串
len(字符串) - 求字符串长度
str(数据) - 将自定数据转换成字符串
a.所有的数据都能转换成字符串
b.将数据的打印值作为字符串的内容
str1 = r'\tabc'
print(len(str1)) # 5
num = 100
str(num) # '100'
str([1, 2, 3]) # '[1, 2, 3]'
4.字符串相关方法
4.1 center/rjust/ljust/zfill
字符串.center(长度, 填充字符) - 产生一个新的字符串:长度是指定的长度,原字符串在新字符串的中间,左右用指定字符填充
字符串.rjust(长度, 填充字符) - 产生一个新的字符串:长度是指定的长度,原字符串在新字符串的最右边,左边用指定字符填充
字符串.zfill(长度) == 字符串.rjust(长度, ‘0’)
字符串.ljust(长度, 填充字符) - 产生一个新的字符串:长度是指定的长度,原字符串在新字符串的最左边,右边用指定字符填充
str1 = 'abc'
new_str1 = str1.center(7, 'x')
print(new_str1) # xxabcxx
new_str2 = str1.rjust(7, '*')
print(new_str2) # ****abc
new_str2 = str1.ljust(7, '*')
print(new_str2) # abc****
练习1: 给任意一个商品的数字编号值,转换成固定格式的商品编码: GDXXXX -> GD0001, GD0012,…
num = 2 # 0034
num_str = 'GD'+str(num).zfill(4)
print(num_str)
4.2 replace
字符串1.replace(字符串2, 字符串3) - 将字符串1中所有的字符串2全部替换成字符3
字符串1.replace(字符串2, 字符串3, N) - 将字符串1中的前 N 个字符串2替换成字符串3
str1 = 'how are you? i am fine, Thank you!'
new_str = str1.replace('o', '*')
print(new_str) # h*w are y*u? i am fine, Thank y*u!
new_str = str1.replace('o', '+', 2)
print(new_str) # h+w are y+u? i am fine, Thank you!
new_str = str1.replace('you', 'me')
print(new_str) # how are me? i am fine, Thank me!
4.3 方法汇总(方法为超链接)
1 | capitalize() 将字符串的第一个字符转换为大写 |
---|---|
2 | center(width, fillchar) 返回一个指定的宽度 width 居中的字符串,fillchar 为填充的字符,默认为空格。 |
3 | count(str, beg= 0,end=len(string)) 返回 str 在 string 里面出现的次数,如果 beg 或者 end 指定则返回指定范围内 str 出现的次数 |
4 | bytes.decode(encoding=“utf-8”, errors=“strict”) Python3 中没有 decode 方法,但我们可以使用 bytes 对象的 decode() 方法来解码给定的 bytes 对象,这个 bytes 对象可以由 str.encode() 来编码返回。 |
5 | encode(encoding=‘UTF-8’,errors=‘strict’) 以 encoding 指定的编码格式编码字符串,如果出错默认报一个ValueError 的异常,除非 errors 指定的是’ignore’或者’replace’ |
6 | endswith(suffix, beg=0, end=len(string)) 检查字符串是否以 obj 结束,如果beg 或者 end 指定则检查指定的范围内是否以 obj 结束,如果是,返回 True,否则返回 False. |
7 | expandtabs(tabsize=8) 把字符串 string 中的 tab 符号转为空格,tab 符号默认的空格数是 8 。 |
8 | find(str, beg=0, end=len(string)) 检测 str 是否包含在字符串中,如果指定范围 beg 和 end ,则检查是否包含在指定范围内,如果包含返回开始的索引值,否则返回-1 |
9 | index(str, beg=0, end=len(string)) 跟find()方法一样,只不过如果str不在字符串中会报一个异常. |
10 | isalnum() 如果字符串至少有一个字符并且所有字符都是字母或数字则返 回 True,否则返回 False |
11 | isalpha() 如果字符串至少有一个字符并且所有字符都是字母则返回 True, 否则返回 False |
12 | isdigit() 如果字符串只包含数字则返回 True 否则返回 False… |
13 | islower() 如果字符串中包含至少一个区分大小写的字符,并且所有这些(区分大小写的)字符都是小写,则返回 True,否则返回 False |
14 | isnumeric() 如果字符串中只包含数字字符,则返回 True,否则返回 False |
15 | isspace() 如果字符串中只包含空白,则返回 True,否则返回 False. |
16 | istitle() 如果字符串是标题化的(见 title())则返回 True,否则返回 False |
17 | isupper() 如果字符串中包含至少一个区分大小写的字符,并且所有这些(区分大小写的)字符都是大写,则返回 True,否则返回 False |
18 | join(seq) 以指定字符串作为分隔符,将 seq 中所有的元素(的字符串表示)合并为一个新的字符串 |
19 | len(string) 返回字符串长度 |
20 | [ljust(width, fillchar]) 返回一个原字符串左对齐,并使用 fillchar 填充至长度 width 的新字符串,fillchar 默认为空格。 |
21 | lower() 转换字符串中所有大写字符为小写. |
22 | lstrip() 截掉字符串左边的空格或指定字符。 |
23 | maketrans() 创建字符映射的转换表,对于接受两个参数的最简单的调用方式,第一个参数是字符串,表示需要转换的字符,第二个参数也是字符串表示转换的目标。 |
24 | max(str) 返回字符串 str 中最大的字母。 |
25 | min(str) 返回字符串 str 中最小的字母。 |
26 | [replace(old, new , max]) 把 将字符串中的 str1 替换成 str2,如果 max 指定,则替换不超过 max 次。 |
27 | rfind(str, beg=0,end=len(string)) 类似于 find()函数,不过是从右边开始查找. |
28 | rindex( str, beg=0, end=len(string)) 类似于 index(),不过是从右边开始. |
29 | [rjust(width,, fillchar]) 返回一个原字符串右对齐,并使用fillchar(默认空格)填充至长度 width 的新字符串 |
30 | rstrip() 删除字符串字符串末尾的空格. |
31 | split(str="", num=string.count(str)) num=string.count(str)) 以 str 为分隔符截取字符串,如果 num 有指定值,则仅截取 num+1 个子字符串 |
32 | [splitlines(keepends]) 按照行(’\r’, ‘\r\n’, \n’)分隔,返回一个包含各行作为元素的列表,如果参数 keepends 为 False,不包含换行符,如果为 True,则保留换行符。 |
33 | startswith(substr, beg=0,end=len(string)) 检查字符串是否是以指定子字符串 substr 开头,是则返回 True,否则返回 False。如果beg 和 end 指定值,则在指定范围内检查。 |
34 | [strip(chars]) 在字符串上执行 lstrip()和 rstrip() |
35 | swapcase() 将字符串中大写转换为小写,小写转换为大写 |
36 | title() 返回"标题化"的字符串,就是说所有单词都是以大写开始,其余字母均为小写(见 istitle()) |
37 | translate(table, deletechars="") 根据 str 给出的表(包含 256 个字符)转换 string 的字符, 要过滤掉的字符放到 deletechars 参数中 |
38 | upper() 转换字符串中的小写字母为大写 |
39 | zfill (width) 返回长度为 width 的字符串,原字符串右对齐,前面填充0 |
40 | isdecimal() 检查字符串是否只包含十进制字符,如果是返回 true,否则返回 false。 |