学习内容:
1.什么是机器学习 2.什么是监督学习 3.什么是无监督学习
一、什么是机器学习?
1.第一个定义来自于Arthur Samuel。他定义机器学习为,在进行特定编程的情况下,给予计算机学习能力的领域;
2.第二个定义来自于Tom Mitchell 。它定义的机器学习是,一个好的学习问题定义如下,他说,一个程序被认为能从经验 E 中学习,解决任务 T,达到性能度量值 P,当且仅当,有了经验E 后,经过P 评判,程序在处理 T 时的性能有所提升。我认为经验 E 就是程序上万次的自我练习的经验而任务 T 就是下棋。性能度量值 P 呢,就是它在与一 些新的对手比赛时,赢得比赛的概率。
例如。在我们的邮箱中,邮箱会自动检测你收到的邮件是否是垃圾邮件。那么在这个过程中,经验E即为观察垃圾邮件和正常邮件;任务T为辨别垃圾邮件;性能度量值P为正确分类垃圾邮件和正常邮件的正确概率。
示例:pandas 是基于NumPy 的一种工具,该工具是为了解决数据分析任务而创建的。
二、监督学习和无监督学习
1.监督学习就是给计算机一堆设置过标签,标记过的数据集,教计算机去做某件事;
涉及到的算法有SVM(支持向量机)(support vector machine),一类按监督学习方式对数据进行二分分类的广义线性分类器
应用于垃圾邮件是否的分类;以及疾病有无的分类
2.无监督学习即为给计算机一堆没有标签的数据堆,在计算机看来都是一样的数据,让计算机自己学习去做某件事;
涉及到的算法有聚类算法(cluster),应用于新闻时间专题分类:将几十条新闻归并到一个专题中,当点击URL时,会跳转到另一个新闻;应用于大型计算机集群;社交网络的分析;市场分类;
其中有一个鸡尾酒排队算法:**[W,s,v] = svd((repmat(sum(x.*x,1),size(x,1),1).x)x’);
svd为奇异值分类