一、“Beautiful Soup”的作用:
“Beautiful Soup”是“Python”的一个库,其主要功能是从网页中抓取数据。
二、相关第三方库的安装:
“Beautiful Soup”目前已经被移植到“bs4”库中,导入“Beautiful Soup”需要先安装bs4库。
(1)、安装“bs4”库类似于“requests”安装:PyCharm中安装requests库
(2)、安装好“bs4”以后还需要安装“lxml”库,方法类似于“bs4”库安装。(不安装lxml库,就会使用Python默认的解析器,但lxml功能更加强大,速度更快。)
三、“Beautiful Soup”的调用:
from bs4 import BeautifulSoup
四、“Beautiful Soup”的简单使用:
(1)、操作页面:
(2)、代码:
import requests #导入requests包
from bs4 import BeautifulSoup #导入eautifulSoup
url='http://www.cntour.cn/'
Strhtml = requests.get(url) # GET方式,获取网页数据
soup = BeautifulSoup(Strhtml.text,'lxml')
data = soup.select('#main > div > div.mtop.firstMod.clearfix > div.centerBox > ul.newsList > li > a')
print(data) #数据打印
(3)、运行结果: