机器学习基本介绍

第一章:导论

1.1 什么是机器学习,为什么需要机器学习。

大数据时代,要求机器能自动分析数据,能从已知的数据中学习一些隐藏的模式,来预测未来的数据,或者执行一些决策。

机器学习大体分为两类:预测或者有监督学习:这个方式需要有训练数据库,然后给定输入特征、属性或者协变量,给定输出的信息。如果输出的是类别信息,则称这类问题叫分类问题,或者模式识别问题。如果输出的是连续值,则称这类问题为回归问题(regression)。

描述(descriptive)或者无监督学习:这类问题只有输入信息,而没有关于输入的任何结构、模式等信息。给定输入,需要挖掘其内在的一些模式,因此有时候叫知识挖掘(knowledge discovery)。

还有第三类学习方法,叫增强学习(reinforcement learning),这类方法是用较少,

1.2 有监督学习:

分类问题:给定带有标注的输入数据,训练学习一个预测函数。然后,利用这个预测函数多新的样本进行预测或者标注,这个过程也就推广(generalization)。

利用概率模型,我们可以将这类问题描述为概率形成:

利用MAP estimate原则,即最大化后验概率来决策。

预测问题:给定的输入,输出可能是连续值。比如预测年龄、预测温度等值。

1.3 无监督学习

无监督学习意在发掘数据的“有意思”的结构信息,在这类方法中,从概率的角度讲,我们要构建带参数的概率密度估计。

无监督学习主要有以下几类:聚类算法、降维算法(高维数据显示)、图的结构挖掘、矩阵填充(matrix completion)。

有监督学习通常的概率描述:

无监督学习通常的概率描述:

1.4 机器学习中的重要概念

1,有参数模型和无参数模型;2,维度灾难;3,线性回归;Logistic回归;4,过拟合;5,模型选择;6,没有免费的午餐原理。

【没有免费的午餐原理】:我们在一个数据域上所做的假设,不一定在其他的数据域也同样工作的很好;实际上往往在其他域内性能很差。这个原理产生的结果是,我们开发出很多不同的模型,来覆盖现实世界中的不同的数据。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值