代码如下:
import requests # 插入request模块
from bs4 import BeautifulSoup # 插入BeautifulSoup函数
url = 'https://book.douban.com/subject/3693974/' # 所要爬取的网址
headers = {'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/92.0.4515.159 Safari/537.36'}
res = requests.get(url , headers = headers) # 爬取到request的内容
soup = BeautifulSoup(res.text,'lxml') # 得到的内容以text形式给beautifulsoup对象
pattern = soup.find_all('span','short') # 用find_all寻找到所有的评论所在行,因为评论行的特征是标签span,属性内容是short,find_all 返回的是一个列表
print(res.status_code)
for item in pattern: # item这个对象在 pattern列表中,,然后只要输入对象的string就可以了
print(item.string)
结果如下: