python爬取豆瓣网页短评实战!

本文介绍如何使用Python爬取豆瓣图书页面的读者短评。通过实例代码展示抓取过程,并鼓励读者尝试不同书籍的爬取,以获取更多数据进行分析。
摘要由CSDN通过智能技术生成

首先我们打开我的父亲母亲的网页界面:链接(https://book.douban.com/subject/20389038/comments/),可以观察到如下界面以及读者对本书的评价:


接下来我们直接附上代码:

# 书名:我的父亲母亲
# 作者:  [英] 多丽丝·莱辛
# 出版社: 南海出版公司
# 原作名: Alfred and Emily
# 译者: 匡咏梅
# 出版年: 2013-1
# 页数: 238
# 定价: 29.50元
# 装帧: 精装
# 丛书: 新经典文库·莱辛作品
# ISBN: 9787544263863


import requests
from lxml import etree
import pandas as pd
#通过观察的url翻页的规律,使用for循环得到10个链接,保存到urls列表中
urls=['https://book.douban.com/subject/20389038/comments/hot?p={}'.format(str(i)) for i in range(1, 11, 1)]

comments = [] #初始化用于保存短评的列表
for url in urls: #使用for循环分别获取每个页面的数据,保存到comments列表
    r = requests.get(url).text
    s = etree.HTML(r)
    file = s.xpath('//div[@cla
  • 1
    点赞
  • 4
    收藏
    觉得还不错? 一键收藏
  • 1
    评论
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值