BeautifulSoup使用教程
- BeautifulSoup 可以按照网页元素的属性来提取数据,避免爬到冗余数据
基础示例代码
#导入BeautifulSoup
from bs4 import BeautifulSoup
import urllib
from urllib import request
import re
# 目标网页地址
html = urllib.request.urlopen("https://cuiqingcai.com/1319.html")
# BeautifulSoup要使用的解释器
# lxml 是一个html解释器,需要在包管理中下载
soup = BeautifulSoup(html, features="lxml")
print(soup.title)
# select方法
div = soup.select("img")
for tmp in div:
print(tmp)