目录
matplotlib库部分
1.库简介与安装
matplotlib顾名思义就是画图的库,可以用来生成各种类型的图,如果安装的是Anaconda环境,里面是有该库的,否则要去终端里面pip下载库
2.简单绘图入门
库官网:Matplotlib — Visualization with Python 可以查看示例
1.折线图
import matplotlib.pyplot as plt
input_values = [1, 2, 3, 4, 5] # 给出x轴的数值,否则将默认从0开始
squares = [1, 4, 9, 16, 25] # 值域
plt.plot(input_values, squares, linewidth=5) # 画折线图,前两个参数为自变量和值域,linewidth设置线条粗细
plt.title("整数平方折线图", fontsize=24) # 设置图标题
plt.xlabel("自变量X", fontsize=14) # 设置x坐标轴名称
plt.ylabel("x的平方", fontsize=14) # 设置y坐标轴名称
plt.tick_params(axis='both', labelsize=14) # 设置刻度大小
plt.show() # 打开matplotlib查看器显示图形
- 踩坑:matplotlib本身是不支持中文,只支持ASCII字符,如何绘制有中文的图参照下面两篇文档:
文档1:Matplotlib中文乱码解决方案(两种方式) (biancheng.net)
文档2:彻底解决Python里matplotlib不显示中文的问题 - 知乎 (zhihu.com)
2.散点图
"""绘制散点图"""
import matplotlib.pyplot as plt
# x_value = [1, 2, 3, 4, 5] 显然这种方法比较低效,用循环改进
# y_value = [1, 4, 9, 16, 25]
x_value = list(range(1, 1001)) # 记住range是取左不取右
y_value = [x**2 for x in x_value] # 列表解析的写法还记得么?
plt.scatter(x_value, y_value, c=(0, 0, 0.8), edgecolor='none', s=20)
plt.scatter(x_value, y_value, c=y_value, cmap=plt.cm.Blues, edgecolor='none', s=20) # 根据x,y值画图,参数用于确定图形样式
plt.axis([0, 1100, 0, 1100000]) # 设置坐标轴的取值范围 参数为x最小最大值,y最小最大值
plt.title("Square Numbers", fontsize=24) # 设置图标题
plt.xlabel("Value", fontsize=14) # 设置x坐标轴名称
plt.ylabel("Square of Value", fontsize=14) # 设置y坐标轴名称
plt.tick_params(axis='both', which='major', labelsize=14) # 设置刻度,which参数意义待考究
#plt.show()
plt.savefig('squares_plot.png', bbox_inches='tight') # 以文件保存图表,第1个参数是文件路径,第2个参数是裁剪多余的空白区域
plt.scatter的参数说明:
- 参数s为点的大小,
- 参数c为点的颜色,可以用三元组表示RGB颜色,范围是0~1,也可以直接字符表示,如’red‘ ’blue‘
- 参数edgecolor为点边缘颜色,默认黑色或蓝色,none时没有
- 参数cmap是颜色映射,具体的用例可以到官网 http://matplotlib.org/查看,找到Color Examples.
踩坑:
- 注意到 8 9行实际上写了两句画图的语句,我本希望他们出现在一张图里,但实际生成了两张图。如果要在一张图里面显示两个表的话需要使用subplot函数:
具体可以参阅Matplotlib 绘制多图 | 菜鸟教程 (runoob.com)中画子图的教学文档
3.随机游走图
random_walk.py
from random import choice
class RandomWalk:
"""一个生成随机游走数据的类"""
def __init__(self, num_points=5000):
"""初始化随机漫步的属性"""
self.num_points = num_points
# 设置随机游走的起点
self.x_values = [0]
self.y_values = [0]
def fill_walk(self):
"""计算随机游走包含的所有的点"""
while len(self.x_values) < self.num_points:
x_direction = choice([1, -1])
x_distance = choice([0, 1, 2, 3, 4])
x_step = x_direction * x_distance
y_direction = choice([1, -1])
y_distance = choice([0, 1, 2, 3, 4])
y_step = y_direction * y_distance
# 以防原地不动:
if x_step == 0 and y_step == 0:
continue
# 计算下一步的坐标
next_x = self.x_values[-1] + x_step
next_y = self.y_values[-1] + y_step
# 将下一步的坐标存入列表
self.x_values.append(next_x)
self.y_values.append(next_y)
rw_visual.py文件
import matplotlib.pyplot as plt
from random_walk import RandomWalk
while True:
rw = RandomWalk()
rw.fill_walk()
#隐藏坐标轴方法1:
# current_axes = plt.axes()
# current_axes.xaxis.set_visible(False)
# current_axes.yaxis.set_visible(False)
plt.figure(dpi=128, figsize=(10, 6)) # 用于指定图的尺寸与分辨率背景色等
# 定义color map的值
point_numbers = list(range(rw.num_points))
plt.scatter(rw.x_values, rw.y_values, s=5, c=point_numbers, cmap=plt.cm.Reds, edgecolor='none')
# 重绘起点和终点以凸显
plt.scatter(0, 0, c='green', s=100)
plt.scatter(rw.x_values[-1], rw.y_values[-1], c='gold', s=100)
# 隐藏坐标轴错误方法:
# plt.axes().get_xaxis().set_visible(False) #书中写法是错误的
# plt.axes().get_yaxis().set_visible(False)
plt.axis('off') #隐藏坐标轴方法2
plt.show()
keep_running = input("Make another walk?(y/n):")
if keep_running == 'n':
break
踩坑:书中提供的隐藏坐标轴的方法在pycharm中运行并不能成功。运行之后如下图所示,为了验证不是因为集成环境而导致的惨剧,我又用python自带的IDLE试验了一遍还是一样。
经过查阅之后得知错误原因:
plt.axes().get_xaxis().set_visible(False)创建了一个隐藏x轴的轴域(空白绘图区域),覆盖在了原来的绘图区域上面,plt.axes().get_yaxis().set_visible(False)又创建了一个隐藏y轴的轴域再次覆盖。所以会出现轴线乱排(多个叠加)和不显示绘图区(其实那张散点图在最底层)。
由此原理想到第一个解法:如上面代码8-11行所示:
首先创建一个轴区域对象,然后对这个对象的visible属性进行修改而不是用plt方法重新画绘图区,因为current_axes.get_xaxis().set_visible(False)是对current_axes这个对象的坐标轴进行修改,而plt.axes().get_xaxis().set_visible(False)是创建隐藏坐标轴的新空白绘图区,plt.axes()是创建操作不是指向一个绘图区对象
这种方法有一个点是一些博主会说要把9、10行代码写在你画散点图的语句之前,其实这是无所谓的,关键是第8行的创建坐标轴对象一定要写在画散点图的语句之前。
修改后的代码附下:
import matplotlib.pyplot as plt
from random_walk import RandomWalk
while True:
rw = RandomWalk()
rw.fill_walk()
current_axes = plt.axes()
# current_axes.xaxis.set_visible(False)
# current_axes.yaxis.set_visible(False)
plt.figure(dpi=128, figsize=(10, 6)) # 用于指定图的尺寸与分辨率背景色等
# 定义color map的值
point_numbers = list(range(rw.num_points))
plt.scatter(rw.x_values, rw.y_values, s=5, c=point_numbers, cmap=plt.cm.Reds, edgecolor='none')
# 重绘起点和终点以凸显
plt.scatter(0, 0, c='green', s=100)
plt.scatter(rw.x_values[-1], rw.y_values[-1], c='gold', s=100)
# 隐藏坐标轴
# plt.axes().get_xaxis().set_visible(False) # 书中写法是错误的
# plt.axes().get_yaxis().set_visible(False)
# plt.axis('off') # 第二种隐藏坐标轴方法
current_axes.xaxis.set_visible(False)
current_axes.yaxis.set_visible(False)
plt.show()
keep_running = input("Make another walk?(y/n):")
if keep_running == 'n':
break
画图如下:
第二种解法如我在21行代码写的,直接把坐标轴给关了。当然这种方法画出来的图也不一样,因为它不是隐藏而是直接给弄没了。
4.画气温图(16章内容)
4.1了解CSV文件格式:
简而言之,就是一系列逗号分割的值。python的标准库中包含csv模块。
4.2处理方法:直接上代码
import csv
from datetime import datetime
from matplotlib import pyplot as plt
def draw_plot(filename, location):
with open(filename, 'r') as f:
reader = csv.reader(f) # 创建阅读器对象
header_row = next(reader) # reader类的next方法用于读取下一行,首次调用时读取第一行
print(header_row)
#
for index1, column_header in enumerate(header_row): # enumerate函数用于枚举可遍历对象,返回的是一个enumerate对象
print(index1, column_header)
# 相似写法:
for i in range(len(header_row)):
print(i, header_row[i])
# 获取需要的列的数据存储到对应的列表中
highs, dates, lows = [], [], []
for row in reader:
try:
current_date = datetime.strptime(row[0], "%Y-%m-%d") # 注意Y的大小写
high = int(row[1])
low = int(row[3])
except ValueError:
print(current_date, 'missing data')
else:
dates.append(current_date)
highs.append(high)
lows.append(low)
# print(highs)
fig = plt.figure(dpi=128, figsize=(10, 6))
plt.plot(dates, highs, c='red', alpha=0.5)
plt.plot(dates, lows, c='blue', alpha=0.5)
plt.fill_between(dates, highs, lows, facecolor='blue', alpha=0.1)
# 设置格式
plt.title("Daily high temperatures,2014\n" + location.title(), fontsize=24)
plt.xlabel('', fontsize=16)
fig.autofmt_xdate()
plt.ylabel("Temperature(F)", fontsize=16)
plt.tick_params(axis='both', which='both', labelsize=10)
plt.show()
if __name__ == '__main__':
filename1 = r"data/sitka_weather_07-2014.csv"
filename2 = r"data/sitka_weather_2014.csv"
filename3 = r"data/death_valley_2014.csv"
# draw_plot(filename1)
draw_plot(filename2, 'sitka')
draw_plot(filename3, 'death valley')
# 统计行数,写法1,这种写法比较简单但是慢,尤其读大文件时很容易卡死
f_obj = open(filename1)
count1 = len(f_obj.readlines())
# 统计行数,写法2,用enumerate更好
f_obj.seek(0, 0) # 这行是为了让文件指针回退 如果新打开文件则不用写
count2 = 0
for index, line in enumerate(f_obj):
count2 += 1
f_obj.close() # 不用with关键字打开文件的话,记得关闭文件,释放资源
print("方法1计数:" + str(count1) + "\n方法2计数:" + str(count2))
Pygal库部分
Pypal模块介绍
Pygal模块可以用来生成可缩放的矢量图形文件。由于目前matplotlib也能生成矢量图,且能满足基本画图需求,这部分就PASS了,有需要再补。