网络爬虫实战2——BeautifulSoup基础操作

一、介绍   

 爬虫的第一步,获取整个网页的HTML信息,我们已经完成(上一篇博文:http://blog.csdn.net/vinsuan1993/article/details/79367192)。接下来就是爬虫的第二步,解析HTML信息,提取我们需要的内容。

    对于本小节的实战,我们需要提取新闻的标题、URL地址和时间。提取的方法有很多,例如使用正则表达式、Xpath、Beautiful Soup等。对于初学者而言,最容易理解,并且使用简单的方法就是使用BeautifulSoup提取感兴趣内容。这是一个强大的第三方库,都会有一个详细的官方文档,Beautiful Soup也是有中文的官方文档。

URL:http://beautifulsoup.readthedocs.io/zh_CN/latest/

二、BeautifulSoup基础操作

DOM Tree


因为我们在jupyter notebook中操作,所以不需要再另行安装BeautifulSoup;

如何提取上面标签中的内容,代码如下:



注:使用soup下的方法select()可以将特定标签元素取出来,需要注意的是,取出来的数据是列表(list)格式。

三、新闻资讯实例

现在,我们使用chrome开发者工具,查看一下我们的目标页面,取得新闻的标题、时间、url,操作步骤如下:


你会看到如下内容,如下:


实例代码如下:


评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值