Python《从零开始学习网络爬虫》——第02课,BeautifulSoup库的使用

提示:文章写完后,目录可以自动生成,如何生成可参考右边的帮助文档


前言

第一节课讲述了Requests的使用,也就是python内置的Requests库,其实Python还有BeautifulSoup库,下面讲述下它的用法。

一、Beautiful库用来干什么?

        BeautifulSoup库可以轻松解析Reaquests库请求的网页,并把网页源代码解析为Soup文档,从而提取数据,小编认为这个库比较方便观察请求的网页源代码。

二、使用步骤

1.引入库

代码如下(示例):

import requests
from bs4 import BeautifulSoup
#导入库

2.实例代码

import requests
from bs4 import BeautifulSoup

headers={
    'user-agent': 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/108.0.5359.125 Safari/537.36'
}


#使用if__name__=='__main__':魔法函数,相当于C语言,java语言里面的主函数

if __name__=='__main__':

    print('这是用requests库提取到的数据,比较杂乱')
    response=requests.get('https://www.xiaozhu.com/',headers=headers)
    print(response.text)

    print('这是用BeautifulSoup提取到的数据,用了缩进的方式,排列整齐')
    soup=BeautifulSoup(response.text,'html.parser')    #这里'html.parse'可以换做'lxml'
    
    print(soup)

   

    """
    soup = BeautifulSoup(html, 'html.parser')
    ‘lxml’ 和 ‘html.parser’就是两种解析器。
    html.parser是python标准库中的解析器,
    两个解释器,推荐使用lxml

    一般解析本地文件使用html.parser解析器更好用一些,如上我用的就是html.parser;如果要是解析 网页文件,比如从网页上抓取下来得信息,就需要用 lxml 解析器,效率会更高一些。
    """

 下面比较下Requests和BeautifulSoup所提取到数据:

 

soup方法:

承接上面的代码,使用.find_all(''),可以锁定相应的标签,比如说网页源代码里面的body,和script标签.

    result=soup.find_all('body')
    result=soup.find_all('script')#find_all方法找div标签都行,可以通过class来找
    print(result)
    #print(soup.prettify())

 打印结果如图所示:

 网页源代码如图所示

 


总结

虽然BeautifSoup库,小编并不经常使用,但对初学者而言无疑是一个重要的知识点,日积月累嘛。还是祝各位学业进步,节节高升!!!

  • 1
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

烧酒调调

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值