beautiful soup爬取网页

最新推荐文章于 2023-01-06 13:42:29 发布

ErrorMaker...

最新推荐文章于 2023-01-06 13:42:29 发布

阅读量109

点赞数

分类专栏：爬虫文章标签： requests BeautifulSoup 豆瓣图书评论抓取 Python爬虫

本文链接：https://blog.csdn.net/qq_22667507/article/details/115180618

版权

爬虫专栏收录该内容

2 篇文章 0 订阅

订阅专栏


import requests
from bs4 import BeautifulSoup

headers = {
    'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/70.0.3538.25 Safari/537.36 Core/1.70.3676.400 QQBrowser/10.5.3738.400'}

url = 'https://book.douban.com/subject/1084336/comments/'
r = requests.get(url=url,headers = headers).text
soup = BeautifulSoup(r,'lxml')
pattern = soup.find_all('span','short') #span代表标签值，short是属性值
for item in pattern:
    print(item.string)