Python机器学习及实践 知识总结

本文总结了机器学习中的监督学习和无监督学习,包括分类与回归任务,介绍了线性分类器、支持向量机、朴素贝叶斯、K近邻、决策树、集成模型等算法,并探讨了聚类算法如K均值,以及特征降维的主成分分析。此外,还提到了模型正则化、欠拟合与过拟合的概念以及解决方法。
摘要由CSDN通过智能技术生成

机器学习中的监督学习的任务重点在于,根据已有的经验知识对未知样本的目标/标记进行预测。

根据目标预测变量的类型不同,我们把监督学习的任务大体分为分类学习与回归预测两类。

监督学习

任务的基本架构流程:1首先准备训练数据 可以是文本 图像 音频等;2然后抽取所需要的特征,形成特征向量;3接着,把这些特征向量连同对应的标记/目标一并送入学习算法中,训练出一个预测模型;4然后,采用同样的特征方法作用于新的测试数据,得到用于测试的数据的特征向量;5最后,使用预测模型对这些待预测的特征向量进行预测并得到结果。

分类学习(二分类 多类分类 多标签分类(判断一个样本是否同时属于多个不同类别))

线性分类器 假设特征与分类结果存在线性关系的模型  通过计算每个维度的特征与各自权重的乘积来帮助类别决策。

①f=wx+b(向量表示形式)

二分类问题希望f∈{0,1} 因此需要一个函数把先得到的f∈R映射到(0,1)于是我们想到了②Logistic函数

整合①②我们得到经典的线性分类器模型行Logistic Regression

一种快速估计的算法 随机梯度上升法

sklearn中

Logistic Regression中解析参数的方式为精确计算 SGDClasifier解析参数的方式为梯度法估计

前者计算时间长 模型的性能高 后者相反

10万量机以上的数据 考虑到用时 建议用后者

支持向量机(分类) 原理:根据训练样本的分布,搜索所有可能的线性分类器中最佳的那个。

我们把可以用来真正帮助决策最优线性分类模型的数据点叫做“支持向量”(二维特征中 两个空间间隔最小的两个不同类别的数据的数据点)

朴素贝叶斯 构造基础是贝叶斯理论

抽象来说朴素贝叶斯分类器会单独思考每一维度特征被分类的条件概率,进而综合这些概率并对其所在的特征向量做出分类预测,因此,这个模型的数学基本假设是:各个维度特征被分类的条件概率之间是相互独立的

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值