1.R语言与机器学习是第一个拿来与大家分享的关于机器学习的资料。原因就是在参加完阿里大数据竞赛后,发现R语言在机器学习研究方面的确有很多方便之处。闲话不多说,写笔记之前我就述说两点内容。
第一:写这一系列博客是为了与大家交流一下我自己学习R语言以及机器学习的收获及一些自己的观点。大家有什么不同的观点以及发现之中有什么错误,欢迎交流以及批评指正。互相学习也是我写博客的初衷。
第二:引用书中的一句话,这本书的面相对象是想要初步学习机器学习和R语言的同学。所以更多机器学习算法还需要自己多多专研。
2.机器学习的步骤
(1)收集数据
无论你要处理的数据是文本形式、图像形式或者音频形式,无论你的数据是存储在文本中还是数据库中,你都需要将这些数据整理成统一的适合数据分析的格式。这些数据将会被算法调用,并最终学习出比较好的预期效果。
(2)数据准备与探索
机器学习项目的质量很大程度上取决于它所使用的数据的质量。在机器学习过程中,这一步往往需要大量的人为干预。据统计数据表明,机器学习80%的努力是花费在这一阶段。如何在庞大杂乱的数据中探索数据的特征及规律,是机器学习成功的关键。
(3)训练模型
当数据都准备好的时候,我们接下来就是要找到合适的机器学习模型。利用单个模型或多个模型去训练数据,学习数据特征及规律。R语言提供了大量的机器学习库供调用