机器学习1-基本概念

参考: https://www.jianshu.com/p/cbe8e0fe7b2c

 

 

数据集 

(色泽=青绿;根蒂=蜷缩;敲声=浊响)
(色泽=墨绿;根蒂=稍蜷;敲声=沉闷)
(色泽=浅白;根蒂=硬挺;敲声=清脆)
······

 

基本概念:

1、样本——这批数据里的每对括号。
2、数据集——样本的集合。
3、特征、属性——色泽、根蒂、敲声等反映事物的本质的可观察方面。
4、属性值——青旅、墨绿、蜷缩、浊响等,是属性的取值。
5、属性空间、样本空间、输入空间——属性张成的空间。把属性当作坐标轴,形成一个空间,那么样本就是这个空间中一个个的点。例如,吧“色泽”、“根蒂”、“敲声”作为坐标轴,则生成一个三维空间,每个西瓜都是这个空间里的一个点。
6、维数——数据集的特征数量。本例中的维数是3。
7、假设——也称假设函数,指计算机通过学习后得到的一个函数(预测模型)。
8、标记——关于样本结果的信息,比如一个(色泽=青绿;根蒂=蜷缩;敲声=浊响)的西瓜是好瓜,那么“好瓜”就是(色泽=青绿;根蒂=蜷缩;敲声=浊响)这个样本的标记。
9、样例——带有标记的样本,比如((色泽=青绿;根蒂=蜷缩;敲声=浊响),好瓜)
10、标记空间、输出空间——所有标记的集合。本例中就是指{好瓜、坏瓜}。
11、泛化——如果用某个数据集的样本训练出的一个模型(假设函数),能够适用于新的样本数据,就说这个模型具有泛化能力。模型能适用于越多的新数据,则说明其泛化能力越强。
12.假设空间----所有假设组成的空间,假设颜色有2种(深绿,浅绿),根蒂有2种(蜷缩,稍蜷),敲声有2种(浊响,沉闷),有可能好瓜与颜色无关,因此颜色有3种可能性(深绿,浅绿,无关),依次类推,根蒂,敲声都有3种可能性,共有3*3*3种可能, 还有可能好瓜这种假设根本不成立,因此一共有3*3*3+1种假设
推广: 假设一个事物有2个特征,每个特征的属性分别有x 种和y种,那么假设空间就有(x+1)*(y+1)+1种
 
13. 版本空间: 可能对于一个训练集,有多种假设都满足要求,这多种符合要求的假设构成了版本空间

分类 : 预测离散值,比如好瓜和坏瓜

回归:预测连续值,比如房价与面积的关系

 

归纳偏好: 算法对某种类型假设的偏好

 过拟合: 机器学习需要从训练集训练处一个模型,能够很好的应用于新的样本,当模型把训练集中的某些特征当做了普遍规律,很可能无法适用于新集合,就产生了过拟合

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值