安装BS4库
pip install beautifulsoup4
导入bs4库并爬取有关网页
from bs4 import BeautifulSoup
import requests
url = 'https://movie.douban.com/top250'
headers = {'User-Agent':'自己电脑数值'}
response = requests.get(url=url,headers=headers).text
soup = BeautifulSoup(response,'html.parser')
title = soup.find_all('li')
print(title)
bs4查找所需元素的方法
find():找到第一个匹配的标签;
find_all():找到所有匹配的标签;
select():使用CSS选择器选择标签。
# 查找第一个<h1>标签
h1_tag = soup.find('h1')
# 查找所有<a>标签
a_tags = soup.find_all('a')
# 选择class为'title'的<div>标签
div_tags = soup.select('div.title')
# 提取<h1>标签的文字内容
h1_text = h1_tag.text
# 获取<a>标签的href属性值
a_href = a_tag.get('href')