爬取《小王子》豆瓣短评前5页的短评数据

思考一下,以下代码还有什么更加简洁的写法?

import requests
from lxml import etree
import pandas as pd

urls = ['https://book.douban.com/subject/1084336/comments/hot?p={}'.format(str(i)) for i in range(1, 6)]
# 通过观察的url翻页规律,使用for循环得到5个链接,保存到urls列表中

comment = []       # 初始化用于保存短评的列表
for url in urls:   # 使用for循环分别获取每个页面的数据
    r = requests.get(url).text  # 请求获取文本数据
    s = etree.HTML(r)           # 用于解析HTML对象
    file = s.xpath('//div[@class="comment"]/p/text()')
    comment = comment + file

df = pd.DataFrame(comment)   # 把comment列表转换为pandas DataFrame
df.to_excel('短评数据.xlsx')  # 使用pandas把数据保存到excel表格 
  • 0
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 1
    评论
小王子是法国作家安托万·德·圣-埃克苏佩里创作的一部童话式小说,被誉为世界儿童文学经典之一。这部小说以一个太空飞行员坠毁在撒哈拉沙漠中,并与小王子相遇为故事背景,通过小王子与各种不同的星球居民的交流,探讨了人类的孤独、友谊、爱情、责任等主题,给读者留下了深刻的印象。 词云是一种用来展示文本中单词出现频率的可视化方式,可以帮助我们快速了解文本的主题和重点。如果你想生成小王子的词云,可以使用Python中的词云库wordcloud。首先,你需要将小王子的文本文件读入到Python中,然后使用wordcloud库中的WordCloud类来生成词云。下面是一个简单的代码示例: ``` import wordcloud from PIL import Image # 读入小王子文本文件 with open('little_prince.txt', 'r', encoding='utf-8') as f: text = f.read() # 加载图片模板 mask = np.array(Image.open('prince_mask.png')) # 配置词云参数 wc = wordcloud.WordCloud(background_color='white', mask=mask, font_path='msyh.ttc') # 生成词云 wc.generate(text) # 展示词云 image_colors = wordcloud.ImageColorGenerator(mask) wc.recolor(color_func=image_colors) wc.to_file('prince_wordcloud.png') ``` 在上面的代码中,我们首先使用Python内置函数open()读入了小王子的文本文件。然后,使用Pillow库中的Image类加载了一个小王子的图片模板,这个模板会被用来生成词云的形状。接着,我们使用WordCloud类来配置词云参数,包括背景颜色、形状、字体等等。最后,调用generate()方法生成词云,并使用ImageColorGenerator类来给词云上色,最终将生成的词云保存到文件中。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值