#提取对象
<a href=”a.com”>text1</a><a href=”a.com.cn”>text2</a>
-
要求
- 查找出上面所有的网址
- 查找出上面所有标签内的文字
- 查找出上面第一个a标签内的文字
- 查找出上面所有不是.cn的网址
- 查找出上面所有不是.cn的a标签内的文字
context="<a href=”a.com”>text1</a><a href=”a.com.cn”>text2</a>"
#[1]
ti1=re.findall(r'[\w]+\.com+\.?c?n?',context)
print(ti1)
#[2]
ti2=re.findall(r'>(\w+)<',context)
print(ti2)
#[3]
ti3=re.search(r'>(\w+)<?',context)
print(ti3)
#[4]
ti4=re.search(r'[\w]+\.com',context)
print(ti4)
#[5]
ti5=re.findall(r'[^n]”>([^<>]*)<',context)
print(ti5)