十六章小结:
本章学习了
- 如何使用网上的数据集;
- 如何处理CSV和JSON文件,以及如何提取感兴趣的数据;
- 如何使用matplotlib来处理以往的天气数据,包括如何使用模块datetime,以及如何在同一个图表中绘制多个数据系列;
- 如何使用模块json来访问以JSON格式存储的交易收盘价数据,并使用pygal绘制图形以探索价格变化的周期性,以及如何将Pygal图形组合成数据仪表盘。
我的所有学习痕迹,基本上都在,每段代码的注释里。
制作交易收盘价走势图:JSON格式
下载收盘价数据
当我尝试使用函数urlopen来下载数据时,照搬书上的代码,它报错了。至今不知道如何解决
所以我直接复制粘贴了json文件。
提取相关的数据
import json
# 将数据加载到一个列表中
filename = 'btc_close_2017.json'
with open(filename) as f:
btc_data = json.load(f)
# 打印每一天的信息
for btc_dict in btc_data:
date = btc_dict['date']
month = btc_dict['month']
week = btc_dict['week']
weekday = btc_dict['weekday']
close = btc_dict['close']
print("{} is month {} week {}, {}, the close price is {} RMB".format(date, month, week, weekday, close))
将字符串转换为数字值
import json
# 将数据加载到一个列表中
filename = 'btc_close_2017.json'
with open(filename) as f:
btc_data = json.load(f)
# 打印每一天的信息
for btc_dict in btc_data:
date = btc_dict['date']
month = int(btc_dict['month'])
week = int(btc_dict['week'])
weekday = btc_dict['weekday']
close = int(float(btc_dict['close'])) # 这里直接转化成整数会报异常,因此需要先转化成浮点数,再转化成int
print("{} is month {} week {}, {}, the close price is {} RMB".format(date, month, week, weekday, close))
绘制收盘价折线图
import json
# 绘制收盘价折线图
# 将数据加载到一个列表中
filename = 'btc_close_2017.json'
with open(filename) as f:
btc_data = json.load(f)
# 创建五个列表,分别存储日期和收盘价
dates, months, weeks, weekdays, close = [], [], [], [], []
for btc_dict in btc_data:
dates.append(btc_dict['date'])
months.append(int(btc_dict['month']))
weeks.append(int(btc_dict['week']))
weekdays.append(btc_dict['weekday'])
close.append(int(float(btc_dict['close'])))
import pygal
# 创建Line实例,x_label_rotation让x轴上的日期标签顺时针旋转20度。show_minor_x_labels告诉图形不用显示所有的x轴标签。
line_chart = pygal.Line(x_label_rotation=20, show_minor_x_labels=False)
line_chart.title = '收盘价(¥)'
line_chart.x_labels = dates
N = 20
line_chart.x_labels_major = dates[::N] # 设置x_labels_major属性让x轴每隔20天显示一次
line_chart.add('收盘价', close)
line_chart.render_to_file('收盘价折线图(¥).svg')
时间序列特征初探
# 接上面的代码
import pygal
import math
#时间序列特征初探
# 创建Line实例,x_label_rotation让x轴上的日期标签顺时针旋转20度。show_minor_x_labels告诉图形不用显示所有的x轴标签。
line_chart = pygal.Line(x_label_rotation=20, show_minor_x_labels=False)
line_chart.title = '收盘价(¥)'
line_chart.x_labels = dates
N = 20
line_chart.x_labels_major = dates[::N] # 设置x_labels_major属性让x轴每隔20天显示一次
close_log = [math.log10(_) for _ in close]
line_chart.add('log收盘价', close_log)
line_chart.render_to_file('收盘价对数变换折线图(¥).svg')
收盘价均值 以及收盘价数据仪表盘
import json
# 绘制收盘价折线图
# 将数据加载到一个列表中
filename = 'btc_close_2017.json'
with open(filename) as f:
btc_data = json.load(f)
# 创建五个列表,分别存储日期和收盘价
dates, months, weeks, weekdays, close = [], [], [], [], []
for btc_dict in btc_data:
dates.append(btc_dict['date'])
months.append(int(btc_dict['month']))
weeks.append(int(btc_dict['week']))
weekdays.append(btc_dict['weekday'])
close.append(int(float(btc_dict['close'])))
import pygal
import math
# 收盘价均值
# 由于需要将数据按月份、周数、周几分组,再计算每组均值,因此我们导入Python标准库中模块itertools的函数groupby()
from itertools import groupby
# 封装成函数
def draw_line(x_date, y_date, title, y_legend):
xy_map = []
# 用for循环将x轴与y轴的数据合并、排序,再用函数groupby分组。
for x, y in groupby(sorted(zip(x_date, y_date)), key=lambda _: _[0]):
y_list = [v for _, v in y]
# 分组后,求出每组的均值,存储到xy_map变量中
xy_map.append([x, sum(y_list)/len(y_list)])
x_unique, y_mean = [*zip(*xy_map)] # 将xy_map中存储的x轴与y轴数据分离
line_chart = pygal.Line()
line_chart.title = title
line_chart.x_labels = x_unique
line_chart.add(y_legend, y_mean)
line_chart.render_to_file(title + '.svg')
return line_chart
# 收盘价月日均值
idx_month = dates.index('2017-12-01')
line_chart_month = draw_line(months[:idx_month], close[:idx_month], '收盘价月日均值(¥)', '月日均值')
# 收盘价周日均值
idx_week = dates.index('2017-12-11') # 2017年12月10日是第49周周日,因此idx_week从11日为止
# 2017-1-1是周日,归属为2016的第52周,因此要去掉,从第二个数据开始索引。因此是weeks[1:idx_week]
line_chart_week = draw_line(weeks[1:idx_week], close[1:idx_week], '收盘价周日均值(¥)', '周日均值')
# 收盘价星期均值
idx_week = dates.index('2017-12-11')
wd = ['Monday', 'Tuesday', 'Wednesday', 'Thursday', 'Friday', 'Saturday', 'Sunday']
weekdays_int = [wd.index(w) + 1 for w in weekdays[1:idx_week]]
line_chart_weekday = draw_line(weekdays_int, close[1:idx_week], '收盘价星期均值(¥)', '星期均值')
line_chart_weekday.render_to_file('收盘价星期均值(¥).svg')
# 收盘价数据仪表盘
with open('收盘价Dashboard.html', 'w', encoding='utf-8') as html_file:
html_file.write('<html><head><title>收盘价</title><metacharset="utf-8"></head><body>')
for svg in [
'收盘价折线图(¥).svg', '收盘价对数变换折线图(¥).svg', '收盘价月日均值(¥).svg',
'收盘价周日均值(¥).svg', '收盘价星期均值(¥).svg'
]:
html_file.write(
' <object type="image/svg+xml" data="{0}" height=500></object>\n'.format(svg))
html_file.write('</body></html>')