今天聊聊数据可视化。
在数据分析中,数据可视化是一道很重要的工序,毕竟人都是视觉动物,要想以最直观最震撼地方式,向不同知识背景的观众老爷展示我的数据分析结果,可视化是最佳也几乎是唯一的选择。
机器学习也一样。虽说模型不相信视觉,但毕竟人工智能人工智能,有多少人工才能有多少智能,数据探索差不多就成了不可缺少的重要工序,这时数据可视化就很重要了。
不过,“可视化”听着好像很酷很复杂,实现挺简单。
拿加利福利亚房价预测来说好了,这个数据集已然成为回归预测的Hello World,要获取也很容易:
import sklearn.datasets as datasets
dataset = datasets.fetch_california_housing()
虽然内置了Api,不过数据还是要在线获取的。下好了可以通过变量dataset查看。dataset的类型是比较少见的sklearn.utils.Bunch,没必要深究,比较有用的属性有两个,data和feature_name,顾名思义,数据和属性名称。看看都有哪些属性: