20210926机器学习与数据挖掘笔记

最新推荐文章于 2023-12-11 17:57:30 发布

Lsnow_Y

最新推荐文章于 2023-12-11 17:57:30 发布

阅读量271

点赞数 1

分类专栏：笔记文章标签：数据挖掘机器学习

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/djs_snowyyy/article/details/120499030

版权

笔记专栏收录该内容

12 篇文章 0 订阅

订阅专栏

2021.9.26

第1章绪论

1.1 引言

机器学习研究如何通过计算的手段，利用经验来改善系统自身的性能。在计算机系统中，“经验”通常以“数据”形式存在，因此，机器学习所研究的主要内容，是关于在计算机上从数据中产生“模型/model”的算法，即“学习算法learning algorithm”。

1.2 基本术语

data set：数据集，记录的集合
instance/sample：示例/样本/记录，关于一个事件或对象的描述
attribute/feature：属性/特征，反映事件或对象在某方面的表现或性质的事项
attribute value：属性值
attribute space/sample space：属性空间/样本空间/输入空间，属性张成的空间
feature vector：特征向量，由于空间中的每个点对应一个坐标向量，因此把一个示例成为一个特征向量【示例=特征向量】

learning/training：学习/训练，从数据中学得模型的过程
- training data
- training sample/training instance
- training set
hypothesis：假设，学得模型对应了关于数据的某种潜在的规律
ground-truth：真相/真实，潜在规律自身
label：标记（不是标签），关于示例的结果信息【个人理解：y】
example：样例，拥有了标记信息的示例

label space：标记空间/输出空间
classification vs regression
- classification预测的是离散值
- regression预测的是连续值
- binary classification：
  - positive class
  - negative class
- multi-class classificatio

testing：测试，学得模型后，使用其进行预测的过程
- testing sample/testing instance：测试样本/测试示例，被预测的样本
supervised learning vs unsupervised learning：根据训练数据是否拥有标记信息
- supervised learning
  - classification
  - regression
- unsupervised learning
  - clustering
generalization：泛化能力，学得模型适用于新样本的能力
independent and identically distributed(i.i.d)：独立同分布，假设样本空间中全体样本服从一个未知分布 $\mathcal{D}$ ，获得的每个样本都是独立地从这个分布上采样获得的

1.3 假设空间

induction：归纳，从特殊到一般的泛化(generalization)过程，从具体的事实归结出一般性规律
deduction：演绎，从一般到特殊的特化(specialization)过程，从基础原理推演出具体状况

inductive learning：归纳学习，是一个归纳的过程

广义的归纳学习：从样例中学习
狭义的归纳学习/概念学习/概念形成：从训练数据中学得概念(concept)

把学习过程看作一个在所有假设组成的空间中进行搜索的过程，搜索目标是找到与训练集“匹配”(fit)的假设，即能够将训练集中的瓜判断正确的假设。假设的表示一旦确定，假设空间及其规模大小就确定了。

version space：版本空间。现实中假设空间很大，学习过程是基于有限样本训练集进行，可能有多个假设与训练集一致，即存在着一个与训练集一致的“假设合集”【说句实话，没懂】

通过学习得到的模型对应了假设空间中的一个假设。

1.4 归纳偏好

inductive bias：归纳偏好/偏好，机器学习算法在学习过程中对某种类型假设的偏好。

归纳偏好对应了学习算法本身所做出的关于“什么样的模型更好”的假设。在具体的现实问题中，这个假设是否成立，即算法的归纳偏好是否与问题本身匹配，大多数时候直接决定了算法能否取得好的性能。

Occam’s razor 奥卡姆剃刀：若有多个假设与观察一致，则选最简单的那个（并非唯一可行原则）
没有免费的午餐定理(No Free Lunch Theorem, NFL)，要谈论算法的相对优劣，必须要针对具体的学习问题

关注

1
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
20210926机器学习与数据挖掘笔记

20210926笔记
复制链接

扫一扫

专栏目录

博客等级

码龄6年

66
原创

126
点赞

462
收藏

50
粉丝

关注

私信

热门文章

分类专栏

最新评论

＜数据结构＞线性探测法处理冲突时查找成功和失败的ASL计算方法
RE大猩猩verse: 我的观点是：存放元素的时候在可以超过m的同时在探测的时候也要往后找，遇到空位置或到表尾就停止，不会循环。
＜数据结构＞线性探测法处理冲突时查找成功和失败的ASL计算方法
RE大猩猩verse: “第二个难点，位置13,14要不要考虑呢？答案是不需要。一个解释方式是通过哈希函数来解释，哪个数字经过哈希函数的映射之后能映射到13或者14？” 12的位置有元素了，发生一次冲突存到13了，那13位置的元素不就被函数映射到了？如果说是查找策略的问题，查找失败的时候13以及后面的位置不予考虑，那查找成功的时候又凭什么考虑呢？难道有两套查找策略？代码怎么可能这么实现
＜数据结构＞线性探测法处理冲突时查找成功和失败的ASL计算方法
m0_63017787: 感谢up主
＜数据结构＞线性探测法处理冲突时查找成功和失败的ASL计算方法
weixin_48365064: 呜呜呜，谢谢博主，解决我困惑，不然做题全错，希望博主再多出一点这种关于考试，做题这类型的文章。救救孩子，数据结构做题好难，好多细节。书上没有，但是又考到，百度也百度不到。
＜数据结构＞线性探测法处理冲突时查找成功和失败的ASL计算方法
Tanvanyo: 想问如果是二次散列失败是不是就不是顺着来，而是按d来看了左右2个都不为空的话看后四和前四是吗？

您愿意向朋友推荐“博客详情页”吗？

强烈不推荐
不推荐
一般般
推荐
强烈推荐

提交

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。