Python-机器学习笔记1

机器学习

定义:如果一个程序在使用既有的经验E来执行某类任务T的过程中被认定为是“具备学习能力的”,那么它一定需要展现出:利用现有的经验E,不断改善其完成既定任务T的性能P的特质

监督学习/
无监督学习/
半监督学习/强化学习/ 遗传算法

监督学习Supervised Learning

关注对事物未知表现的预测
根据目标预测变量的类型不同,可分为分类学习及回归预测

分类学习

预测变量为离散变量;常见二分类问题,多累分类,多标签分类问题。

1.线性分类器(Linear Classification):
最基本和常用的机器学习模型,假设特征与分类结果存在线性关系的模型,该模型通过累加计算每个维度的特征与各自权重的乘积来帮助类别决策。
2.支持向量机分类器(Support Vector Classifier):
根据训练样本的分布,搜索所有可能的线性分类器中最佳的那个。
节省数据内存,但计算代价较高
3.朴素贝叶斯(Naive Bayes):
该模型会单独考量每一维度特征被分类的条件概率,进而综合这些概率并对其所在的特征向量做出分类预测。
极大的节约内存消耗及计算时间,但在数据特征关联性较强的分类任务表现不佳。
4.K近邻分类:
无参数模型
时间代价高
5.决策树:
描述非线性关系,
重点:特征节点的选取顺序。
无须考虑对数据的量化甚至是标准化
6.集成模型分类:
即综合考量多个分类器的预测结果,做出决策。
一是利用相同的训练数据同时搭建多个独立的分类模型,然后通过投票的方式,以少数服从多数的原则作出最终的分类决策。(如随机森林分类器)
二是按照一定次序搭建多个分类模型。模型间存在依赖关系。每一个后续模型的加入都需要对现有集成模型的综合性能有所贡献,进而不断提升更新过后的集成模型的性能,并最终期望借助整合多个分类能力较弱的分类器,搭建出具有更强分类能力的模型。(如梯度提升决策树)

回归预测

预测目标为连续变量

1.线性回归器:相比线性分类,预测目标直接是实数域上的数值,因此优化目标就更为简单,即最小化预测结果与真实值之间的差异。
支持向量机(回归):相比支持向量机(分类)的训练样本提供的不再是类别目标,而是具体的预测数值。
K近邻(回归):
回归树:
集成模型(回归):

无监督学习Unsupervised Learning

倾向于对事物本身特性的分析

数据聚类

最为经典并且易用的聚类模型,当属K均值算法。该算法要求我们预先设定聚类的个数,然后不断更新聚类中心;经过几轮这样的迭代,最后的目标就是让所有数据点到其所属聚类中心距离的平方和趋于确定。

特征降维

特征降维不仅重构了有效的低维度特征向量,同时也为数据展现提供了可能。主成分分析是最为经典和实用的特征降维技术。

一些概念

基线系统:指使用经典模型搭建的机器学习系统。研发人员没提出一个新系统都需要 和基线系统在多个具有代表性的数据集上进行性能比较的测试。

泛化力:对未知的预测能力(程序能够不断的从经历和数据中吸取经验教训从而应对为了的预测任务)

信息熵:平均而言发生一个事件我们得到的信息量大小。即一个系统的混乱程度。

基尼不纯度:将来自集合中的某种结果随机应用于集合中某一数据项的预期误差率。(从一个数据集中随机选取子项,度量其被错误的划分到其他组里的概率= v =一个随机事件变成他的对立事件的概率)

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值