机器学习入门

最新推荐文章于 2022-05-14 15:38:28 发布

pink_threegong

最新推荐文章于 2022-05-14 15:38:28 发布

阅读量330

点赞数

原文链接：https://github.com/apachecn/AiLearning/blob/master/docs/ml/1.md

版权

1 监督学习：给定一组数据，知道正确的输出结果是什么样子，在输入和输出之间有特定的关系

样本集：训练数据+测试数据

训练样本：特征 + 目标变量

特征：训练样本集的列，独立测量得到

目标变量：机器学习预测算法测试所得的结果

2 非监督学习：在未加标签的数据中，找到隐藏的结构。没有错误或信号来评估潜在的解决方案

聚类：将数据集分成类似的对象组成的多个类的过程

密度估计：通过样本分布的紧密程度，估计与分组的相似性

3 训练过程：

4 常见的算法：监督学习：k-近邻算法、朴素贝叶斯算法、支持向量机、决策树

无监督学习：K-均值、DBSCAN

5 模型拟合程度：

欠拟合：模型没有很好的捕捉到数据的特征，对于训练样本的一般性质尚未学好

过拟合：模型学习的’太好了‘，把某些训练样本的本身的特征也当作所有潜在样本的一搬性质，泛化能力下降

6 常见的模型指标：

正确率 -----提取出的正确的信息条数/提取出的信息条数

召回率------提取出的正确的信息条数/样本中的信息条数

F值 ------ 正确率*召回率/（正确率+召回率）

7 常见模型：

分类：将一些未知类别的数据分到现在已知的类别中去

回归：对数值型连续随机变量进行预测和建模

聚类问题：无监督学习，基于数据的内部结构寻找观察样本的自然族群。

一般由簇内距离与簇间距离描述。

簇内距离(intra-cluster distance) 和簇间距离(inter cluster distance)

簇内距离越小越好，簇间距离越大越好

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
机器学习入门

1 监督学习：给定一组数据，知道正确的输出结果是什么样子，在输入和输出之间有特定的关系样本集：训练数据+测试数据训练样本：特征 + 目标变量特征：训练样本集的列，独立测量得到目标变量：机器学习预测算法测试所得的结果2 非监督学习：在未加标签的数据中，找到隐藏的结构。没有错误或信号来评估潜在的解决方案聚类：将数据集分成类似的对象组成的多个类的过程密度估计：通过样本分布的紧密程度，估计...
复制链接

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。