BeautifulSoup库是解析、遍历、维护“标签树”的功能库。一个功能强大的爬虫库,不用正则就能方便的实现对网页具体信息的抓取。
引用:
import bs4 (注意不是:import BeautifulSoup4)
from bs4 import BeautifulSoup(python是大小写敏感的语言,注意B和H的大写)
BeautifulSoup类的基本元素:
基本元素 | 说明 |
Tag | 标签,最基本的信息组织单元,分别用<>和</>表明开头和结尾,soup.<tag>返回第一个Tag内容 |
Name | 标签的名字,<p>...</p>的名字是‘p’,格式:<tag>.name |
Attribute | 标签的属性,以字典形式组织,格式:<tag>.attrs |
NavigableString | 标签内非属性的字符串,在 |