数据解析

数据解析

1.解析的局部的文本内容都会在标签之间或者标签对应的属性中进行存储。
2.指定的标签的定位
3.标签或者标签对应的属性中存储的数据值进行提取(解析)

正则表达式

正则表达式语句

import re

re.compile(“正则表达式”).findall(“原字符串”)

匹配符

普通字符			正常匹配其中的字符。
\n				匹配换行符。
\t				匹配制表符。
\w				匹配字母、数字、下划线。
\W				匹配除了字母、数字、下划线的字符串。字母大写相当于非(个人总结)
\d				匹配十进制数字
\D				匹配除了十进制数字的字符串
\s				匹配空白字符
\S				匹配非空白字符
[asd213]		匹配中括号中的任意一个字符
[^asd213]		匹配中除了括号中的任意一个字符

特殊字符
想单纯的使用以下字符,需要在前面加一个\,如$

.				匹配除换行符 \n 之外的任何单字符。
^				匹配输入字符串的开始位置。
$				匹配输入字符串的结尾位置。 
*				前一个字符出现零次或多次。
+				前一个字符出现一次或多次。
?				前一个字符出现零次或一次。
{n}				前一个字符恰好出现n次
{n,}			前一个字符至少出现n次
{n,m}			前一个字符至少n次,至多m次
|				指明两项之间的一个选择。
()				标记一个子表达式的开始和结束位置。

贪婪模式与懒惰模式
贪婪模式:就是尽可能多的匹配,默认贪婪模式
懒惰模式:就是尽可能少的匹配,也叫精准模式
当出现以下组合时,才代表是懒惰模式:

*?				懒惰模式//?不代表01+?				懒惰模式//?不代表01

模式修正符

re.compile(“正则表达式”).findall(“原字符串”)			//原匹配语句
re.S				//使.也可以匹配换行,单行匹配。
re.I				//匹配时候忽略大小写
re.M                //多行匹配

实例1

源字符串:"XiaoZhe"
正则表达式:"xiao"
匹配语句:re.compile("xiao",re.I).findall("XiaoZhe")
匹配后:"Xiao"

  • 1
    点赞
  • 10
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值