流程
获取网络源
- 导入requests和re
- 给url变量赋值,记得准备好headers
- req = requests.get(url,headers = headers)获得网页内容,html = req.text 获得html格式的网页内容
- 为了反扒,或许还要对线程进行关闭。
s = request.session()
s.keep_alive = False
正则表达式匹配
pattern = re.compile()
groups = pattern.findall(html)
输出
得到的groups是一个list,需要for in 循环输出
使用text = text.replace(‘a’,‘b’),对细节部分进行修改替换。