机器学习实战（一）KNN，补可视化plt

最新推荐文章于 2024-08-15 22:44:05 发布

baocui1522

最新推荐文章于 2024-08-15 22:44:05 发布

阅读量266

点赞数

文章标签： python 人工智能

原文链接：http://www.cnblogs.com/cherry-BAIL/p/11150024.html

版权

from matplotlib.font_manager import FontProperties
import matplotlib.lines as mlines
import matplotlib.pyplot as plt
import numpy as np


def file2matrix(filename):
    # 打开文件,此次应指定编码，
    fr = open(filename, 'r', encoding='utf-8')
    # 读取文件所有内容
    arrayOLines = fr.readlines()
　　#获取文件行数
    # 针对有BOM的UTF-8文本，应该去掉BOM，否则后面会引发错误。
    arrayOLines[0] = arrayOLines[0].lstrip('\ufeff')
    # 得到文件行数1000（说明有1000个样本）
    numberOfLines = len(arrayOLines)
　　# 返回的NumPy矩阵,解析完成的数据:numberOfLines行,3列。1000*3
    returnMat = np.zeros((numberOfLines, 3))
 # 返回的分类标签向量
 classLabelVector = []
 # 行的索引值
 index = 0

 for line in arrayOLines:
 # s.strip(rm)，当rm空时,默认删除空白符(包括'\n','\r','\t',' ')
 line = line.strip()
 # 使用s.split(str="",num=string,cout(str))将字符串根据'\t'分隔符（空格）进行切片。
 listFromLine = line.split('\t')
 # 将数据前三列提取出来,存放到returnMat的NumPy矩阵中,也就是特征矩阵
 returnMat[index, :] = listFromLine[0:3]
 # 根据文本中标记的喜欢的程度进行分类,1代表不喜欢,2代表魅力一般,3代表极具魅力
 # 对于datingTestSet2.txt 最后的标签是已经经过处理的 标签已经改为了1, 2, 3
 if listFromLine[-1] == 'didntLike':
 classLabelVector.append(1)
 elif listFromLine[-1] == 'smallDoses':
 classLabelVector.append(2)
 elif listFromLine[-1] == 'largeDoses':
 classLabelVector.append(3)
 index += 1
 return returnMat, classLabelVector

"""
函数说明:可视化数据
Parameters:
   datingDataMat - 特征矩阵
   datingLabels - 分类Label
Returns:
   无
Modify:
   2017-03-24
"""


def showdatas(datingDataMat, datingLabels):
    # 设置汉字格式
    font = FontProperties(fname=r"c:\windows\fonts\simsunb.ttf",
                          size=14)
    ##需要查看自己的电脑是否会包含该字体
    # 将fig画布分隔成1行1列,不共享x轴和y轴,fig画布的大小为(13,8)
    # 当nrow=2,nclos=2时,代表fig画布被分为四个区域,axs[0][0]表示
    # 第一行第一个区域
    fig, axs = plt.subplots(nrows=2, ncols=2, sharex=False,
                            sharey=False, figsize=(13, 8))

    numberOfLabels = len(datingLabels)
    LabelsColors = []
    for i in datingLabels:
        if i == 1:
            LabelsColors.append('black')
        if i == 2:
            LabelsColors.append('orange')
        if i == 3:
            LabelsColors.append('red')
    # 画出散点图,以datingDataMat矩阵的第一(飞行常客例程)、第二列(玩游戏)数据画散点数据,散点大小为15,透明度为0.5
    axs[0][0].scatter(x=datingDataMat[:, 0], y=datingDataMat[:, 1], color=LabelsColors, s=15, alpha=.5)
    # 设置标题,x轴label,y轴label
    axs0_title_text = axs[0][0].set_title(u'每年获得的飞行常客里程数与玩视频游戏所消耗时间占比', FontProperties=font)
    axs0_xlabel_text = axs[0][0].set_xlabel(u'每年获得的飞行常客里程数', FontProperties=font)
    axs0_ylabel_text = axs[0][0].set_ylabel(u'玩视频游戏所消耗时间占比', FontProperties=font)
    plt.setp(axs0_title_text, size=9, weight='bold', color='red')
    plt.setp(axs0_xlabel_text, size=7, weight='bold', color='black')
    plt.setp(axs0_ylabel_text, size=7, weight='bold', color='black')

    # 画出散点图,以datingDataMat矩阵的第一(飞行常客例程)、第三列(冰激凌)数据画散点数据,散点大小为15,透明度为0.5
    axs[0][1].scatter(x=datingDataMat[:, 0], y=datingDataMat[:, 2], color=LabelsColors, s=15, alpha=.5)
    # 设置标题,x轴label,y轴label
    axs1_title_text = axs[0][1].set_title(u'每年获得的飞行常客里程数与每周消费的冰激淋公升数', FontProperties=font)
    axs1_xlabel_text = axs[0][1].set_xlabel(u'每年获得的飞行常客里程数', FontProperties=font)
    axs1_ylabel_text = axs[0][1].set_ylabel(u'每周消费的冰激淋公升数', FontProperties=font)
    plt.setp(axs1_title_text, size=9, weight='bold', color='red')
    plt.setp(axs1_xlabel_text, size=7, weight='bold', color='black')
    plt.setp(axs1_ylabel_text, size=7, weight='bold', color='black')

    # 画出散点图,以datingDataMat矩阵的第二(玩游戏)、第三列(冰激凌)数据画散点数据,散点大小为15,透明度为0.5
    axs[1][0].scatter(x=datingDataMat[:, 1], y=datingDataMat[:, 2], color=LabelsColors, s=15, alpha=.5)
    # 设置标题,x轴label,y轴label
    axs2_title_text = axs[1][0].set_title(u'玩视频游戏所消耗时间占比与每周消费的冰激淋公升数', FontProperties=font)
    axs2_xlabel_text = axs[1][0].set_xlabel(u'玩视频游戏所消耗时间占比', FontProperties=font)
    axs2_ylabel_text = axs[1][0].set_ylabel(u'每周消费的冰激淋公升数', FontProperties=font)
    plt.setp(axs2_title_text, size=9, weight='bold', color='red')
    plt.setp(axs2_xlabel_text, size=7, weight='bold', color='black')
    plt.setp(axs2_ylabel_text, size=7, weight='bold', color='black')
    # 设置图例
    didntLike = mlines.Line2D([], [], color='black', marker='.',
                              markersize=6, label='didntLike')
    smallDoses = mlines.Line2D([], [], color='orange', marker='.',
                               markersize=6, label='smallDoses')
    largeDoses = mlines.Line2D([], [], color='red', marker='.',
                               markersize=6, label='largeDoses')
    # 添加图例
    axs[0][0].legend(handles=[didntLike, smallDoses, largeDoses])
    axs[0][1].legend(handles=[didntLike, smallDoses, largeDoses])
    axs[1][0].legend(handles=[didntLike, smallDoses, largeDoses])
    # 显示图片
    plt.show()

fig, ax = plt.subplots() equal to fig, ax = plt.subplots(11)
fig, axes = plt.subplots(23)表示一次性在figure上创建2*3的网格，使用
　　plt.subplot()只能一个一个的添加