Python BeautifulSoup4 select方法执行css选择器

最新推荐文章于 2024-06-01 19:59:37 发布

风扇吹吹

最新推荐文章于 2024-06-01 19:59:37 发布

阅读量1.8w

点赞数 1

分类专栏： pyhon 文章标签： python bautiSoup select 选择器

本文链接：https://blog.csdn.net/FengShanChuiChui/article/details/72967518

版权

初识爬虫，使用urllib结合强大的BeautifulSoup简单写了下代码。看参考书上主要讲解了find方法的使用，但发现其是还支持css选择器语法选择，于是试验了一下。

环境为：ubuntu12.04 + pycharm2017.1.3 + python3.6 + urllib + beautifulsoup4

构造BeautifulSoup对象

首先，我是以爬取搜狗搜索的主页来试验的。其结构大概如此
搜狗主页结构

编写爬虫代码如下

from urllib import request
from bs4 import BeautifulSoup

html = request.urlopen("https://www.sogou.com/") #执行请求
bs = BeautifulSoup(html)    #将请求结果传递给bs构造对象
print(bs.getText)           #输出整个bs的内容

代码很简单清晰，只是将bs对象构造处理直接输出其内容。当然这体现不出BeautifulSoup的强大，因为这直接通过html对象也能得到。但不要心急，接下来让我们继续试验BeautifulSoup的CSS选择器功能。

使用BeautifulSoup select方法提取内容

BeautifulSoup支持CSS选择器是令人惊喜的，这大大方便了我们对特定标签的选取。那么接下来就来试验一下。
比如现在我们需要选取搜狗主页中导航栏中导向“知乎”的链接。
分析文档结构大概有这几个比较容易区分的层级特点：

<div class="top-nav">
    <ul>
        ...
        <li class="cur"><span>网页</span></li>
        href="http://

最低0.47元/天解锁文章

风扇吹吹

关注

1
点赞
踩
9

收藏

觉得还不错? 一键收藏
2
评论
Python BeautifulSoup4 select方法执行css选择器

初识爬虫，使用urllib结合强大的BeautifulSoup简单写了下代码。看参考书上主要讲解了find方法的使用，但发现其是还支持css选择器语法选择，于是试验了一下。环境为：ubuntu12.04 + pycharm2017.1.3 + python3.6 + urllib + beautifulsoup4构造BeautifulSoup对象首先，我是以爬取搜狗搜索的主页来试验的。其结构大概如此
复制链接

扫一扫

专栏目录