初战告捷,我们继续下一步,来获取网页中的标题和超链接。
观察一下,第一篇文章是这样的:
这篇文章的标题和超链接信息在我们返回的文本中是这样的:
上面的表示是超链接的内容,而下面的则是表示是标题大小为4号字体 ,注意它们的标签。
这个网站比较简单,它的文章标题直接用"<h4>“括起来了,所以直接用”<h4>"就可以搜索到所有标题;但链接就不行,因为<a>出现的地方比较多,不是所有的链接都是我们需要的,所以要另外处理。
从返回的文本中提取内容可以使用正则表达式,需要引入re包,利用findall函数来查找匹配的内容。
先提取这一页所有的文章标题,我们采用非贪婪匹配:
#引入requests包
import requests
#设定我们要爬取的内容,全部是企业环境信息披露下的文章,先找到其中第一篇文章
url=