机器学习(一) 数据可视化
前言:
1.开发环境:Anaconda3-5.2.0,点击这里下载所有版本
2.语言:python
机器学习是一个很大的概念,我会的也是其中的沧海一粟,我从基础的开始和大家一起分享一下学习心得。
为什么不先说别的,要先说数据可视化?
从日常工作中,机器学习的成果怎么展示?
有的是润物细无声系列,比如说Facebook的反爬虫策略就使用的机器学习分析用户行为,来判别你是正常的用户还是别人写的代码,你根本就感知不到。
但是很多情况下,机器学习处理后的结果还是需要通过直观的图表展示,当然这里还是对你python基础的再次熟悉。
1. matplotlib
如果想做简单的图形展示,比如说条形图、线图、散点图、直方图这些可以使用应用最广泛的matplotlib库。
因为matplotlib对中文支持不好,因此在开始前,需要安装一种中文字体。我这里添加的是黑体,当然你可以按照你的喜好添加其他中文字体,点击这里下载 (如果在这之前你使用过matplotlib,但是没有使用过中文字体,那么你可以将缓存删除,缓存是在/XX/XX/.matplotlib
,将这个缓存文件夹删除。)
将下载好的字体放到/anaconda3/lib/python3.6/site-packages/matplotlib/mpl-data/fonts/ttf
这个文件夹中。
这里使用anaconda中的jupyter notebook来进行代码和图表的交互。可以在shell界面,直接输入jupyter notebook就可以打开。
MacBook-Pro:data_analysis duke$ jupyter notebook
如果对jupyter notebook的快捷键不知道如何使用,点击这里
展示某种趋势可以使用线图,例中国从1967年至2017年的GDP,代码如下:
from matplotlib import pyplot as plt
years = [1967,1977,1987,1997,2007,2017]
gdp = [728.82,1749.38,2729.73,9616.04,35521.82,122377.00]
#指定中文字体
plt.rcParams['font.sans-serif'] = ['SimHei']
#创建一份线图,x轴是年份,y轴是gdp
plt.plot(years,gdp,color='red',marker='o',linestyle='solid')
#添加一个标题
plt.title("中国名义GDP")
#给y轴加标记
plt.ylabel("亿美元")
plt.show()