#正则表达式筛取爬到的内容 import re from urllib import request #定义url' page=100 url='https://tieba.baidu.com/f?ie=utf-8&kw=%E6%AE%B5%E5%AD%90' +str(page) try: #定义请求头 headers={'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/100.0.4878.0 Safari/537.36'} #定义请求头,传入请求头 req=request.Request(url,headers=headers) #打开网页 resp=request.urlopen(req) #打印响应,解码 content=resp.read().decode('utf-8') print(content) #正则表达式 #<a rel="noopener"具体的东西 #.*?匹配没有用的数据 #(。*?)匹配有用的数据 #\s空格 pattern=re.compile(r'<a rel="noopener".*?title=(.*?)\s.*?>(.*?)</a>') #匹配html items=re.findall(pattern,content) #打印解析的内容 for i in items: print('标题:'+i[0]+'\t'+'内容:'+i[1]) except request.URLError as e: #打印响应码 if hasattr(e,'code'): print(e.code) #打印异常原因 if hasattr(e,'reason'): print(e.code)
Python爬虫基础2(正则表达式的应用)
于 2022-03-20 14:23:34 首次发布