Python BeautifulSoup4 select方法执行css选择器

初识爬虫,使用urllib结合强大的BeautifulSoup简单写了下代码。看参考书上主要讲解了find方法的使用,但发现其是还支持css选择器语法选择,于是试验了一下。

环境为:ubuntu12.04 + pycharm2017.1.3 + python3.6 + urllib + beautifulsoup4

构造BeautifulSoup对象

首先,我是以爬取搜狗搜索的主页来试验的。其结构大概如此
搜狗主页结构

编写爬虫代码如下

from urllib import request
from bs4 import BeautifulSoup

html = request.urlopen("https://www.sogou.com/") #执行请求
bs = BeautifulSoup(html)    #将请求结果传递给bs构造对象
print(bs.getText)           #输出整个bs的内容

代码很简单清晰,只是将bs对象构造处理直接输出其内容。当然这体现不出BeautifulSoup的强大,因为这直接通过html对象也能得到。但不要心急,接下来让我们继续试验BeautifulSoup的CSS选择器功能。

使用BeautifulSoup select方法提取内容

BeautifulSoup支持CSS选择器是令人惊喜的,这大大方便了我们对特定标签的选取。那么接下来就来试验一下。
比如现在我们需要选取搜狗主页中导航栏中导向“知乎”的链接。
分析文档结构大概有这几个比较容易区分的层级特点:

<div class="top-nav">
    <ul>
        ...
        <li class="cur"><span>网页</span></li>
        href="http://
  • 1
    点赞
  • 9
    收藏
    觉得还不错? 一键收藏
  • 2
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值