Python正则表达式之提取字符串中指定值
提取中文
import re
pattern=re.compile("[\u4e00-\u9fa5]+")
pattern.findall("士力架花生夹心巧克力全家桶460g/+40克(20克*2)500g")
输出:
[‘士力架花生夹心巧克力全家桶’, ‘克’, ‘克’]
提取数值
提取整型数值
import re
pattern=re.compile("[0-9]+")
pattern.findall("士力架花生夹心巧克力全家桶460g/+40克(20克*2)500g")
输出:
[‘460’, ‘40’, ‘20’, ‘2’, ‘500’]
#提取全家桶之后出现的两位整型字符
import re
pattern=re.compile("(?<=全家桶)\d{2}")
pattern.findall("士力架花生夹心巧克力全家桶460.7g/+40克(20克*2)500.8g")
输出:
[‘46’]
#提取出现的克数信息
import re
pattern=re.compile("[0-9]+g|[0-9]+克")
pattern.findall("士力架花生夹心巧克力全家桶460g/+40克(20克*2)500g")
输出:
[‘460g’, ‘40克’, ‘20克’, ‘500g’]
提取浮点型数值
import re
pattern=re.compile("\d+\.\d*")#\d+匹配整型数值,\.匹配小数点,\d*匹配小数点后的整型数值
pattern.findall("士力架花生夹心巧克力全家桶460.7g/+40克(20克*2)500.8g")
输出:
[‘460.7’, ‘500.8’]
提取整型和浮点型数值
#提取数值
import re
pattern=re.compile("\d+\.?\d*")#因为不确定是否有小数点,所以此处使用\.?来匹配
pattern.findall("士力架花生夹心巧克力全家桶460.7g/+40克(20克*2)500.8g")
输出:
[‘460.7’, ‘40’, ‘20’, ‘2’, ‘500.8’]
#提取"全家桶"之后出现的数值
import re
pattern=re.compile("(?<=全家桶)\d+\.?\d*")
pattern.findall("士力架花生夹心巧克力全家桶460.7g/+40克(20克*2)500.8g")
[‘460.7’]