Beautiful Soup爬虫

本文介绍了如何使用Beautiful Soup库进行网页解析和爬虫。主要内容包括标签获取、find()与find_all()函数的使用、常见节点(子节点、父节点、兄弟节点)的操作,并通过实例展示了如何爬取网页上的招聘信息并进行数据处理。
摘要由CSDN通过智能技术生成

之前使用过XPath爬虫、正则表达式爬虫获取我们想要的内容,Beautiful Soup也是一种爬虫,解析HTML/XML文档,但是使用方法会比之前的简单。

首先还是安装库,这里安装的是 bs4 ,Beautiful Soup类就在这个模块里面。

目录

标签获取

find( )与find_all( )函数 

 三个常见节点

BeautifulSoup爬虫 


标签获取

首先看一看类方法获取到的文本样式:

from bs4 import BeautifulSoup

text = '''
<?xml version="1.0" encoding="utf-8"?>
<bookstore>

    <book>
        <title lang="en">Lonely</title>
        <price>20</price>
    </book>

    <book>
        <title lang="ch">活着</title>
        <price>30</price>
    </book>

</bookstore>
'''
soup=BeautifulSoup(text)    #创建一个BeautifulSoup对象
print(soup.prettify())    #按照缩进格式进行输出

 将获得的文本使用类方法进行输出,便于直观的看到里面的内容以及从属关系。

获取XML文档中的文本内容:

print(soup.getText())   #获取文本内容

获取文档里面的标签以及各种内容(以title标签举例):

print(soup.title)   #获取一个标签
print(soup.title.name)  #获取标签名字
print(soup.title.attrs)     #获取标签属性,返回值是字典
print(soup.title['lang'])   #获取属性的值
print(soup.title.string)    #获取标签里的文本

 在运行的结果中会提示你一些关于编译器的警告,可以忽略不计。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值