机器学习笔记

机器学习笔记
无监督学习
定义
训练数据都是不含标签的,而算法的目的则是通过训练,推测出这些数据的标签。这类算法有一个统称,即无监督算法(前面有标签的数据的算法则是有监督算法)
无监督算法中最典型的代表就是聚类算法
算法
聚类算法
最典型的代表就是K-Means算法
降维算法
降维算法也是一种无监督学习算法,其主要特征是将数据从高维降低到低维层次。
降维算法的主要作用是压缩数据与提升机器学习其他算法的效率。通过降维算法,可以将具有几千个特征的数据压缩至若干个特征。另外,降维算法的另一个好处是数据的可视化,例如将5维的数据压缩至2维,然后可以用二维平面来可视。降维算法的主要代表是PCA算法(即主成分分析算法)。
PCA算法:主成分分析法
监督学习
分类学习
1.线性分类器
是一种假设特征与分类结果存在线性关系的模型。这个模型通过累加计算每个维度的特征与各自权重的乘积来帮助决策。
2.支持向量机
使用不同颜色的直线作为线性分类的边界。
根据训练样本的分布,搜索所有可能的线性分类器中最佳的那个。
3.朴素贝叶斯
会单独考量每一维度特征被分类的条件概率,进而综合这些概率并对其所在的特征向量做出分类预测。各个维度上的特征被分类的条件概率之间是相互独立的。
4.K近邻
假设我们有一些携带分类标签的训练样本,分布于特征空间中,蓝色、绿色类别各自代表代表其样本类别,对于待分类的红色样本,在未知其类别的情况下,按照近朱者赤近墨者黑的原则进行分类;
5.决策树
多项特征,是决策树的不二之选。
6.集成模型分类
集成分类器模型是综合考量多个分类器的预测结果,从而做出决策
随机森林
随机森林采用多个决策树的投票机制来改善决策树,我们假设随机森林使用了m棵决策树,那么就需要产生m个一定数量的样本集来训练每一棵树,如果用全样本去训练m棵决策树显然是不可取的,全样本训练忽视了局部样本的规律,对于模型的泛化能力是有害的
它对于多维特征的数据集分类有很高的效率,还可以做特征重要性的选择。运行效率和准确率较高,实现起来也比较简单。但是在数据噪音比较大的情况下会过拟合,过拟合的缺点对于随机森林来说还是较为致命的。
梯度提升决策树
GBDT(Gradient Boosting Decision Tree) 又叫 MART(Multiple Additive Regression Tree),是一种迭代的决策树算法,该算法由多棵决策树组成,所有树的结论累加起来做最终答案。它在被提出之初就和SVM一起被认为是泛化能力较强的算法。
      GBDT中的树是回归树(不是分类树),GBDT用来做回归预测,调整后也可以用于分类。
      GBDT的思想使其具有天然优势可以发现多种有区分性的特征以及特征组合。
回归预测
步骤
1.准备数据
2.数据预处理
3.抽取特征向量
4.制作预测模型
5.进行预测
  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值