【网页爬虫】BeautifulSoup4模块介绍

1、BeautifulSoup4基础介绍

- 使用pip安装BeautifulSoup4

pip install BeautifulSoup4

- 导入BeautifulSoup4模块

import bs4

- 创建BeautifulSoup.bs4对象

# 引入urllib.request模块
import urllib.request
# html.read()为urllib.request.urlopen()方法得到的字节对象,也可采用其他方法
html = urllib.request.urlopen("http://pythonscraping.com/pages/page1.html")
# 解析器采用python标准库:"html.parser",也可以采用其他库(需安装)
soup=bs4.BeautifulSoup(html.read(),"html.parser")

- 查找bs4对象

# 方法一:直接在bs4对象后跟对应的标签名,可以多级,结果相同
print(soup.h1)
print(soup.html.h1)
print(soup.html.body.h1)

# 方法二:使用find方法查找,返回类型为bs4.element.Tag
name=soup.find("span",{
  "class":"red"})
pri
  • 2
    点赞
  • 12
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值