针对初学者的机器学习入门概述篇。
我理解的机器学习:是通过一些让计算机可以自动“学习”的算法并从数据中分析获得规律,然后利用规律对新样本进行预测。
所谓学习,是指:系统在不断重复的工作中对本身能力的增强或改进,使得系统在下一次执行相同任务或类似任务(指的是具有相同分布的任务)时,比现在做的更好或效率更高。
人工智能 、机器学习与深度学习的关系?
人工智能 > 机器学习 > 深度学习,机器学习是从人工智能中产生的一个重要学科分支,是实现智能化的关键,而深度学习是机器学习中一个很有名的分支。
为什么机器可以学习?
这里有两个非常重要的基础理论:一个是独立同分布,一个是PCA(概率近似正确)。
机器学习是通过学习已知的数据,去对未知的数据进行预测。(ps:我这里说的机器学习有些偏向针对监督学习了)。那么只要我们能保证训练集的量N足够大,就能保证训练集的错误率与真实的预测错误率是有很大概率接近的。通俗一点,同学你是机器,选择合适的学习方法,通过平日里的不断刷模拟题和历年高考真题,持续学习知识,最终参加今年的高考。最后高考成绩:690,嗯很好,同学你是一个被训练的很好的机器,这次机器学习十分成功。最终高考成绩:250,嗯....同学你这个机器....
即是学习,便学的有好有差。如何让机器学的更好,就是我们需要做好的事情。(ps:就像你学习一下,你现在担任的角色就是你的老妈,如何让你学的更好?)
让机器学习效果更好,我们主要从三个方面考虑:
第一个方面是数据,数据即原始数据,是机器要通过算法找出规律的原始数据,这一部分对于你的机器来说是已知的,如果你的原始数据集都质量很差,在面对未知的数据,你能预测准确吗?显然不能!举个不恰当的例子,你老妈给你买了高考辅导资料,结果是不知名的盗版书,题目质量差的离谱,一堆错误误人子弟,结果你不知道,你拿来训练,写的学的贼认真,你训练这个题目,写完了也训练完了,这个时候你去参加期末考试,结果显然不会出色。这里的高考辅导资料和原始数据集一样的道理。
第二个是合适的模型,即选择一个合适的算法。还是高考辅导资料,什么叫针对与数据集和任务选择合适的模型?意思就是:你现在手头上有你老妈给你买的高考语文诗词,高考数学辅导资料。不合适的算法和模型意思就是,你针对语文诗词资料采取分析理解计算,针对数据高考辅导资料采取死记硬背,把数学题目全部被下来,有用吗,咱也不知道,或许可以试试🤔。真实的做法应该针对不同的数据,不同的任务和目标,选择最合适最好的算法和模型。
第三个是模型的评估和改进。这个也好理解,毕竟谁都知道高考复习中要重视你自己写过的错题,去总结反思,重写错题,人有改进机器也有。这次搭建的模型训练效果,预测效果不好,没关系,我继续评估继续改进我的模型,直到表现很出色。
机器学习推荐书目:
Python机器学习基础教程;机器学习(周志华写的);统计学习方法(李航写的);机器学习实战(李锐翻译)
图片如下: