第一章绪论

最新推荐文章于 2020-10-17 21:31:58 发布

沐沐余风

最新推荐文章于 2020-10-17 21:31:58 发布

阅读量585

点赞数

分类专栏：机器学习-周志华文章标签：机器学习

机器学习-周志华专栏收录该内容

5 篇文章 0 订阅

订阅专栏

1、基本术语

数据集
样本
属性or特征
样本空间
预测离散值–分类，二分类，多分类
预测连续值–回归

监督学习：分类、回归
无监督学习：聚类

泛化能力：generalization，模型适用于新样本的能力
通常假设全样本服从一个未知分布D，每个样本都是独立地从这个分布上采样获得的（独立同分布），一般来说，训练样本越多，我们得到的关于D的信息越多，这样通过学习获得具有较强泛化能力的模型。

2、假设空间

归纳与演绎
归纳–枚举法，从具体事实总结一般性规律
演绎–三段论，凡金属都是导体，铜是金属，所以铜是导体。
把学习过程看做一个在所有假设组成的空间中进行搜索，目标是找到与训练集匹配的假设。可能存在多个与训练集一致的假设集合，成为“版本空间”

3、归纳偏好

在学习过程中对某种类型假设的偏好，例如“更平滑”，“更简单”。
归纳偏好对应了学习算法本身所作出的关于“什么样的模型更好”的假设。
算法的归纳偏好是否与问题本身匹配，大多数时候直接决定了算法能够取得好的性能。

重点：对于一个学习算法A，若它在一些问题上比学习算法B好，则必然存在另一些问题，B比A好。对任何算法都成立。

NFL定理（no free lunch theroem）：假设所有问题出现的机会相同，即真实目标函数f是均匀分布的，那么总学习误差与学习算法无关。

但实际情况并不是这样。所以，脱离问题，空谈论”什么学习算法更好”毫无意义。
要谈论算法的相对优劣，必须要针对具体的学习问题。

数据挖掘
–数据库领域的研究为数据挖掘提供数据管理技术
–机器学习和统计学的研究为数据挖掘提供数据分析工具

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
第一章绪论

1、基本术语数据集样本属性or特征样本空间预测离散值–分类，二分类，多分类预测连续值–回归监督学习：分类、回归无监督学习：聚类泛化能力：generalization，模型适用于新样本的能力通常假设全样本服从一个未知分布D，每个样本都是独立地从这个分布上采样获得的（独立同分布），一般来说，训练样本越多，我们得到的关于D的信息越多，这样通过学习获得具有较强泛化能力的模型。2、
复制链接

扫一扫

专栏目录

沐沐余风 CSDN认证博客专家 CSDN认证企业博客

码龄11年

216: 原创

19万+: 周排名

81万+: 总排名

15万+: 访问

: 等级

3594: 积分

34: 粉丝

26: 获赞

10: 评论

134: 收藏

私信

关注

热门文章

分类专栏

最新评论

leetcode 671. Second Minimum Node In a Binary Tree
mingyuan2011: 使用INT_MAX是不对的。测试用例里如果有元素是INT_MAX的话，你结果就是错的。
百度POI数据抓取-BeautifulSoup
GIS从业者: 请问：c：城市编码这个信息如何获取？？？
leetcode 665. Non-decreasing Array
ceezyyy: 感谢博主
百度POI数据抓取-BeautifulSoup
mona_lisa_star: 你好，感谢楼主的分享，我是个小白，刚开始学习相关知识，有一个问题想请教楼主。我在执行getPOI（）的时候，每次写入都会输出HTTP error，并且写入文档的经纬度信息也不是转换后的格式，但是我写入前打印data时经纬度坐标都已经正确转换了啊。这是什么问题呢？
百度POI数据抓取-BeautifulSoup
rdd1214: 可以发一下完整的代码吗[email protected].最近也在学习爬虫，谢谢了

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。