机器学习笔记

最新推荐文章于 2022-07-25 20:16:13 发布

程序员杂谈

最新推荐文章于 2022-07-25 20:16:13 发布

阅读量194

点赞数

分类专栏： python 文章标签：机器学些监督学习

本文链接：https://blog.csdn.net/trecn001/article/details/80388338

版权

python 专栏收录该内容

47 篇文章 1 订阅

订阅专栏

机器学习笔记
无监督学习
定义
训练数据都是不含标签的，而算法的目的则是通过训练，推测出这些数据的标签。这类算法有一个统称，即无监督算法(前面有标签的数据的算法则是有监督算法)
无监督算法中最典型的代表就是聚类算法
算法
聚类算法
最典型的代表就是K-Means算法
降维算法
降维算法也是一种无监督学习算法，其主要特征是将数据从高维降低到低维层次。
降维算法的主要作用是压缩数据与提升机器学习其他算法的效率。通过降维算法，可以将具有几千个特征的数据压缩至若干个特征。另外，降维算法的另一个好处是数据的可视化，例如将5维的数据压缩至2维，然后可以用二维平面来可视。降维算法的主要代表是PCA算法(即主成分分析算法)。
PCA算法：主成分分析法
监督学习
分类学习
1.线性分类器
是一种假设特征与分类结果存在线性关系的模型。这个模型通过累加计算每个维度的特征与各自权重的乘积来帮助决策。
2.支持向量机
使用不同颜色的直线作为线性分类的边界。
根据训练样本的分布，搜索所有可能的线性分类器中最佳的那个。
3.朴素贝叶斯
会单独考量每一维度特征被分类的条件概率，进而综合这些概率并对其所在的特征向量做出分类预测。各个维度上的特征被分类的条件概率之间是相互独立的。
4.K近邻
假设我们有一些携带分类标签的训练样本，分布于特征空间中，蓝色、绿色类别各自代表代表其样本类别，对于待分类的红色样本，在未知其类别的情况下，按照近朱者赤近墨者黑的原则进行分类；
5.决策树
多项特征，是决策树的不二之选。
6.集成模型分类
集成分类器模型是综合考量多个分类器的预测结果，从而做出决策
随机森林
随机森林采用多个决策树的投票机制来改善决策树，我们假设随机森林使用了m棵决策树，那么就需要产生m个一定数量的样本集来训练每一棵树，如果用全样本去训练m棵决策树显然是不可取的，全样本训练忽视了局部样本的规律，对于模型的泛化能力是有害的
它对于多维特征的数据集分类有很高的效率，还可以做特征重要性的选择。运行效率和准确率较高，实现起来也比较简单。但是在数据噪音比较大的情况下会过拟合，过拟合的缺点对于随机森林来说还是较为致命的。
梯度提升决策树
GBDT(Gradient Boosting Decision Tree) 又叫 MART（Multiple Additive Regression Tree)，是一种迭代的决策树算法，该算法由多棵决策树组成，所有树的结论累加起来做最终答案。它在被提出之初就和SVM一起被认为是泛化能力较强的算法。
GBDT中的树是回归树（不是分类树），GBDT用来做回归预测，调整后也可以用于分类。
GBDT的思想使其具有天然优势可以发现多种有区分性的特征以及特征组合。
回归预测
步骤
1.准备数据
2.数据预处理
3.抽取特征向量
4.制作预测模型
5.进行预测

程序员杂谈

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
机器学习笔记

机器学习笔记无监督学习监督学习分类学习 1.线性分类器是一种假设特征与分类结果存在线性关系的模型。这个模型通过累加计算每个维度的特征与各自权重的乘积来帮助决策。 2.支持向量机使用不同颜色的直线作为线性分类的边界。根据训练样本的分布，搜索所有可能的线性分类器中最佳的那个。 3.朴素贝叶斯会单独考量每一维度特征被分类的条件概率，进而综合这些概率并对...
复制链接

扫一扫