Tools
python3、pycharm
Packages
requests---http处理包
re---调用正则
爬虫过程
请求网页-源码查找所需信息-正则表达-提取信息输出
简易正则表达:模糊字段用 .*? 代替,所要提取部分用 (.*?) 代替
举例
import requests import re #定义函数 def get_info():#定义爬取网页列表 #请求网页 response = requests.get('http://.....') response.encoding = 'utf-8'#网页F12,charset看编码格式,设置查看网页编码格式 #源码查找所需信息 result = response.text print(result) #正则表达 reg = re.compile(r'<a href=".*?" title="(.*?)" class="image-link') #提取信息输出 info = re.findall(reg,result) print(info) return get_info get_info()