机器学习入门

1 监督学习 :给定一组数据,知道正确的输出结果是什么样子,在输入和输出之间有特定的关系

        样本集:训练数据+测试数据

        训练样本:特征 + 目标变量

        特征:训练样本集的列,独立测量得到

        目标变量:机器学习预测算法测试所得的结果

2 非监督学习 :在未加标签的数据中,找到隐藏的结构。没有错误或信号来评估潜在的解决方案

        聚类:将数据集分成类似的对象组成的多个类的过程

        密度估计:通过样本分布的紧密程度,估计与分组的相似性

3 训练过程:

4 常见的算法:监督学习:k-近邻算法、朴素贝叶斯算法、支持向量机、决策树 

                        无监督学习:K-均值、DBSCAN

 5 模型拟合程度:

            欠拟合:模型没有很好的捕捉到数据的特征,对于训练样本的一般性质尚未学好

            过拟合:模型学习的’太好了‘,把某些训练样本的本身的特征也当作所有潜在样本的一搬性                             质, 泛化能力下降        

 6 常见的模型指标:

            正确率 -----提取出的正确的信息条数/提取出的信息条数

             召回率------提取出的正确的信息条数/样本中的信息条数

            F值 ------ 正确率*召回率/(正确率+召回率)

  7 常见模型:

                分类:将一些未知类别的数据分到现在已知的类别中去

                回归:对数值型连续随机变量进行预测和建模

                聚类问题: 无监督学习,基于数据的内部结构寻找观察样本的自然族群。

                                一般由 簇内距离与簇间距离描述。

                                簇内距离(intra-cluster distance) 和 簇间距离(inter cluster distance)

                                簇内距离越小越好,簇间距离越大越好

 

        

        

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值