机器学习 (Machine Learning) 是目前备受追捧的学习领域之一,无论是学界还是业界都痴迷于机器学习的研究,甚至很多读BA的毕业生认为工作不用机器学习就会显得水平很低今天的学习记录就复习一下机器学习领域最最简单的一个算法——K-Nearest Neighbourhood Algorithm,中文名称应该是叫KNN算法。
今天的学习记录只是复盘一下我在春季学期数据挖掘课程中学到的KNN算法的入门案例,R本身可以使用FNN包自动运行KNN算法,但是今天我会手动计算拟合值。另外,进行数据分析时,一般按照80%/20%的比例将数据随机分成training data和test data,这里的演示没有做此区分。如果想细致深入了解KNN算法,推荐阅读USC教授Gareth James的An Introduction to Statistical Learning
入门案例是根据根据温度预测得克萨斯州用电量,数据"loadhou.csv"包含三个变量:时间 (Time)、用电量 (COAST)、温度 (KHOU)。
数据包含了2010-2016年度每天下午三点所测得的休斯顿机场温度以及得克萨斯州地区的用电总量。根据常识,当温度越低或者越高时,用电需求都会增大,所以二者的关系可视化之后应该呈现为开口向上的抛物线。如下图:
library(tidyverse)library(gganimate)### 导入数据 推荐使用RStudio