目录
1、确定目标页面并进行分析
打开目标页面,右键鼠标,选择“检查”
新的窗口显示的就是该网页的元素,发现我们想要的内容应该储存在“要闻列表里面”。展开下面的<ul>
发现我们要的内容就在<h4>里面,接下来,我们就要用html解析器来提取这些内容,但是我们可能只想提取我们想要的标题和链接,而不希望有多余的内容被提取出来。所以接下来,先介绍一下正则表达式。
2、Python中的正则表达式
可以参考菜鸟教程https://www.runoob.com/python/python-reg-expressions.html查看基本的语法,这里做简单介绍:
注意使用正则表达式之前,需要import re
1)re.match函数
re.match 尝试从字符串的起始位置匹配一个模式,如果不是起始位置匹配成功的话,match()就返回none。
re.match(pattern, string, flags=0),匹配成功re.match方法返回一个匹配的对象,否则返回None。
我们可以使用group(num) 或 groups() 匹配对象函数来获取匹配表达式。
2)r