之前在豆瓣爬取了文学类,评分在9.0以上所有书籍,保存在了books.json文件中了。但是浏览起来实属不方便,所以打算用excel包装一下,便于浏览。
1.准备工具
- openpyxl 库。这是一个专门操作excel表的py库。
- 安装方法也很简单
pip3 install openpyxl
- 安装方法也很简单
- 终端工具,运行py脚本。
- sublime 编写脚本代码,个人比较喜欢的一个编辑器。
- books.json 文件,保存了抓取的书籍信息。
2.编写代码
# 用到了json库来解析json格式的数据
import json
import openpyxl
f = open("books.json", encoding='utf-8')
books = json.load(f)
# openpyxl的操作流程
# 第一步:打开工作簿
wb = openpyxl.load_workbook('books.xlsx')
# 第二步:选取表单 表单是指('sheet1','sheet2','sheet3')那些
sh = wb['books']
# 激活
ws = wb.active
# 添加表头数据
ws.append(['书名', '作者', '评分', '评论数', '简介'])
# 遍历json数组的数据并写入到excel中
for book in books:
title = book['title']
author = book['author']
rate = book['rate']
pl_num = book['pl_num']
summary = book['summary']
ws.append([title, author, rate, pl_num, summary])
# 保存excel文件,这一步必须写,不写就不会保存数据
wb.save('books.xlsx')
wb.close() # 最后记得关闭流
3.成果展示
- books.json 文件。
- 最终的excel 文件。
结尾
openpyxl 还有好多其他功能,因为这个实验中没用到,所以不展开了。我觉得学习一个库最好的就是想要用到的时候去学,而不是刻意的去学。仅个人观点。