机器学习笔记总结(1)

监督学习(superviewed learning):

给出数据集以及标准答案,进行训练来预测将来给出的的数据的答案归属。

例如:

就是高考前所做的练习题是有标准答案的。在学习的过程中,我们可以通过对照答案,来分析问题找出方法,下一次在面对没有答案的问题时,往往也可以正确地解决。 
对于机器学习来说,监督学习就是训练数据既有特征(feature)又有标签(label),通过训练,让机器可以自己找到特征和标签之间的联系,在面对只有特征没有标签的数据时,可以判断出标签。

                                                                  1.jpg

       通常分为:分类和回归

分类:定性输出称为分类,或者说是离散变量预测。【输入变量与输出变量均为连续变量的预测问题是回归问题。    摘自:李航《统计学习方法》p4】

回归:定量输出称为回归,或者说是连续变量预测;【输出变量为有限个离散变量的预测问题成为分类问题。  摘自:李航《统计学习方法》p4】

举个栗子:

                 预测明天的气温是多少度,这是一个回归问题;
                 预测明天是阴、晴还是雨,就是一个分类问题。

无监督学习(superviewed learning):      

给出数据集未给出标准答案,让其自己进行判断出数据结构,并进一步得到数据模型,用于判断新给的数据归属。 

例如:

高中做练习题的例子,就是所做的练习题没有标准答案,换句话说,你也不知道自己做的是否正确,没有参照,想想就觉得是一件很难的事情。 
但是就算不知道答案,我们还是可以大致的将语文,数学,英语这些题目分开,因为这些问题内在还是具有一定的联系。 
这种问题在机器学习领域中就被称作聚类(Clustering),相对于监督学习,无监督学习显然难度要更大,在只有特征没有标签的训练数据集中,通过数据之间的内在联系和相似性将他们分成若干类。

一般是聚类问题:

 

对于聚类在实际的应用中亦是非常广泛的,如:市场细分(Market segmentation)、社交圈分析(social network analysis)、集群计算(organize computing clusters)、天体数据分析(astronomical data analysis)
                      3.jpg

未做处理的数据:

                                                         4.jpg

 

K-means将其分成两簇:

                                                       5.jpg

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值