首先我们打开我的父亲母亲的网页界面:链接(https://book.douban.com/subject/20389038/comments/),可以观察到如下界面以及读者对本书的评价:
接下来我们直接附上代码:
# 书名:我的父亲母亲
# 作者: [英] 多丽丝·莱辛
# 出版社: 南海出版公司
# 原作名: Alfred and Emily
# 译者: 匡咏梅
# 出版年: 2013-1
# 页数: 238
# 定价: 29.50元
# 装帧: 精装
# 丛书: 新经典文库·莱辛作品
# ISBN: 9787544263863
import requests
from lxml import etree
import pandas as pd
#通过观察的url翻页的规律,使用for循环得到10个链接,保存到urls列表中
urls=['https://book.douban.com/subject/20389038/comments/hot?p={}'.format(str(i)) for i in range(1, 11, 1)]
comments = [] #初始化用于保存短评的列表
for url in urls: #使用for循环分别获取每个页面的数据,保存到comments列表
r = requests.get(url).text
s = etree.HTML(r)
file = s.xpath('//div[@cla