浅谈机器学习
机器学习是什么:
机器学习是一门能够让编程计算机从数据中学习的计算机科学。
一个计算机程序在完成任务T之后,获得经验E,其表现效果为P,如果任务T的性能表现,也就是用以衡量的P,随着E增加而增加,那么这样计算机程序就被称为机器学习系统。
自我完善,自我增进,自我适应。
机器学习就是从数据中提取知识。它是统计学,人工智能和计算机科学研究的交叉领域,也被称为预测分析和统计学。
为什么学习机器学习:
想象以下如果我们的邮箱每天收到成千上百万的邮件,那么我们怎么去判断什么邮件使我们需要的。没有机器学习之前我们之前可能用判断去做,用大量的 if 和else 进行相关过滤。那么我们可以写一个程序相对“智能”的程序,给出相应的规则让它进行判断,来简化相关工作。
机器学习能够带来什么:
最成功的机器学习算法是能够将决策过程自动化的那些算法,这些决策过程是从已知的示例中泛华得到的,也叫监督学习。
监督机器学习任务示例:
1.识别信封上手写的不规则的邮政编码
2.基于医学影像判断肿瘤是否为良性
3.检测信用卡交易中的诈骗行为
4.通过博客内容确定博客的分类
5.将顾客分为具有相似性的群体
6.检测网站的异常访问模式
机器学习的问题
1.建模问题
所谓机器学习,在形式上可这样理解:在数据对象中通过统计或推理的方法,寻找一个接受特定输入X,并给出预期输出Y的功能函数f,即Y=f(X)。
2.评估问题
针对已知的输入,函数给出的输出(预测值)与实际输出(目标值)之间存在一定的误差,因此需要构建一个评估体系,根据误差的大小判定函数的优劣。
3.优化问题
学习的核心在于改善性能,通过数据对算法的反复锤炼,不断提升函数预测的准确性,直至获得能够满足实际需求的最优解,这个过程就是机器学习。
机器学习的种类
监督学习、无监督学习、半监督学习、强化学习
1.有监督学习:用已知输出评估模型的性能。
2.无监督学习:在没有已知输出的情况下,仅仅根据输入信息的相关性,进行类别的划分。
3.半监督学习:先通过无监督学习划分类别,再根据人工标记通过有监督学习预测输出。
4.强化学习:通过对不同决策结果的奖励和惩罚,使机器学习系统在经过足够长时间的训练以后,越来越倾向于给出接近期望结果的输出。
批量学习和增量学习
1.批量学习:将学习的过程和应用的过程截然分开,用全部的训练数据训练模型,然后再在应用场景中实现预测,当预测结果不够理想时,重新回到学习过程,如此循环。
2. 增量学习:将学习的过程和应用的过程统一起来,在应用的同时以增量的方式,不断学习新的内容,边训练边预测
基于实例的学习和基于模型的学习
1.根据以往的经验,寻找与待预测输入最接近的样本,以其输出作为预测结果。
年龄 学历 经验 性别 月薪
25 硕士 2 女 10000
20 本科 3 8000
… … … … …
20 本科 3 男 ?
2.基于模型的学习:根据以往的经验,建立用于联系输出和输入的某种数学模型,将待预测输入代入该模型,预测其结果。
输入 -> 输出
1 2
2 4
3 6 Y = 2 * X
…
9 ? -> 18