1.安装BeautifulSoup库(第三方库,简化正则,目前还未体会到其应用优势~~)
2.Test1:获取url网页信息
import urllib.request
response = urllib.request.urlopen('http://python.org/')
result = response.read().decode('utf-8')
print(result)
3.Test2:提取url网页中包含的超级链接/网址
import urllib.request import re #re库用于正则表达式 response = urllib.request.urlopen('http://www.jd.com') text = response.read().decode('UTF-8') print(text) linkre = re.compile('href=\"(.+?)\"') #编辑正则模型 for x in linkre.findall(text): if 'http' in x: print('新增地址-->'+x)
4.正则
# pattern = re.compile('正则') 匹配所有 # pettern = re.match('正则') 开始匹配,匹配一次 # pettern = re.research('正则') 中间匹配,匹配一次