一、介绍
爬虫的第一步,获取整个网页的HTML信息,我们已经完成(上一篇博文:http://blog.csdn.net/vinsuan1993/article/details/79367192)。接下来就是爬虫的第二步,解析HTML信息,提取我们需要的内容。
对于本小节的实战,我们需要提取新闻的标题、URL地址和时间。提取的方法有很多,例如使用正则表达式、Xpath、Beautiful Soup等。对于初学者而言,最容易理解,并且使用简单的方法就是使用BeautifulSoup提取感兴趣内容。这是一个强大的第三方库,都会有一个详细的官方文档,Beautiful Soup也是有中文的官方文档。
URL:http://beautifulsoup.readthedocs.io/zh_CN/latest/
二、BeautifulSoup基础操作
DOM Tree
因为我们在jupyter notebook中操作,所以不需要再另行安装BeautifulSoup;
如何提取上面标签中的内容,代码如下:
注:使用soup下的方法select()可以将特定标签元素取出来,需要注意的是,取出来的数据是列表(list)格式。
三、新闻资讯实例
现在,我们使用chrome开发者工具,查看一下我们的目标页面,取得新闻的标题、时间、url,操作步骤如下:
你会看到如下内容,如下:
实例代码如下: