python爬取豆瓣网页短评实战！

最新推荐文章于 2024-08-10 19:42:39 发布

置顶

IT程序员的日常

最新推荐文章于 2024-08-10 19:42:39 发布

阅读量1.8k

点赞数 1

分类专栏： Python

本文链接：https://blog.csdn.net/FengyCoder/article/details/79616123

版权

本文介绍如何使用Python爬取豆瓣图书页面的读者短评。通过实例代码展示抓取过程，并鼓励读者尝试不同书籍的爬取，以获取更多数据进行分析。

摘要由CSDN通过智能技术生成

首先我们打开我的父亲母亲的网页界面：链接（https://book.douban.com/subject/20389038/comments/），可以观察到如下界面以及读者对本书的评价：

接下来我们直接附上代码：

# 书名：我的父亲母亲
# 作者:  [英] 多丽丝·莱辛
# 出版社: 南海出版公司
# 原作名: Alfred and Emily
# 译者: 匡咏梅
# 出版年: 2013-1
# 页数: 238
# 定价: 29.50元
# 装帧: 精装
# 丛书: 新经典文库·莱辛作品
# ISBN: 9787544263863


import requests
from lxml import etree
import pandas as pd
#通过观察的url翻页的规律，使用for循环得到10个链接，保存到urls列表中
urls=['https://book.douban.com/subject/20389038/comments/hot?p={}'.format(str(i)) for i in range(1, 11, 1)]

comments = [] #初始化用于保存短评的列表
for url in urls: #使用for循环分别获取每个页面的数据，保存到comments列表
    r = requests.get(url).text
    s = etree.HTML(r)
    file = s.xpath('//div[@cla