爬取《小王子》豆瓣短评前5页的短评数据

最新推荐文章于 2020-03-09 22:21:52 发布

mubaios

最新推荐文章于 2020-03-09 22:21:52 发布

阅读量975

点赞数

分类专栏：实战案例文章标签：豆瓣数据爬取网页

本文链接：https://blog.csdn.net/mubaios/article/details/78543213

版权

实战案例专栏收录该内容

3 篇文章 0 订阅

订阅专栏

思考一下，以下代码还有什么更加简洁的写法？

import requests
from lxml import etree
import pandas as pd

urls = ['https://book.douban.com/subject/1084336/comments/hot?p={}'.format(str(i)) for i in range(1, 6)]
# 通过观察的url翻页规律，使用for循环得到5个链接，保存到urls列表中

comment = []       # 初始化用于保存短评的列表
for url in urls:   # 使用for循环分别获取每个页面的数据
    r = requests.get(url).text  # 请求获取文本数据
    s = etree.HTML(r)           # 用于解析HTML对象
    file = s.xpath('//div[@class="comment"]/p/text()')
    comment = comment + file

df = pd.DataFrame(comment)   # 把comment列表转换为pandas DataFrame
df.to_excel('短评数据.xlsx')  # 使用pandas把数据保存到excel表格

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

mubaios

关注关注

0
点赞
踩
2

收藏

觉得还不错? 一键收藏
1
评论
爬取《小王子》豆瓣短评前5页的短评数据

思考一下，以下代码还有什么更加简洁的写法？import requestsfrom lxml import etreeimport pandas as pdurls =['https://book.douban.com/subject/1084336/comments/hot?p={}' .format(str(i)) for i in range(1, 6, 1)]# 通过观
复制链接

扫一扫