机器学习入门
文章平均质量分 81
学术菜鸟小晨
5年IT从业经验,人工智能高级算法工程师、人工智能领域新星创作者、博客专家
展开
-
机器学习入门(第六天)——支持向量机(升维打击)
SVM使用间隔最大化思想构造最优超平面。构造出来的超平面使得其与最近的点的距离最大。SVM也可划分非线性数据集。它通过高维中的线性超平面再低维中的投影来完成非线性的划分。因此从直观上来讲,我们的模型必定有一个升维的操作。这是总体的概念。SummarySVM首先从最大间隔出发,设计了可构造最优超平面的线性模型。考虑到存在噪音或有部分点让人很为难,添加了软间隔。变成了具有软间隔功能的线性模型。通过对数据的升维,使得模型变成了非线性。可以用于非线性数据集。原创 2023-11-30 16:48:11 · 1124 阅读 · 0 评论 -
机器学习入门(第五天)——决策树(每次选一边)
决策树的核心思想:以树结构为基础,每个节点对某特征进行判断,进入分支,直到到达叶节点。决策树构造的核心思想:让信息熵快速下降,从而达到最少的判断次数获得标签。判断信息熵下降速度的方法:信息增益。构建决策树算法:ID3(使用信息增益)、C4.5(使用使用信息增益比)。信息增益会导致节点偏向选取取值角度的特征的问题。关于第5点的补充,统计学习和西瓜书都是给的这个解释,但还有另一种解释,就是信息增益导致大数问题——>概率是否准确的问题。原创 2023-11-30 14:50:54 · 257 阅读 · 0 评论 -
机器学习入门(第四天)——朴素贝叶斯
条件概率公式:,表示在已发生事件B的情况下,事件A发生的概率。使用条件概率公式逐步导出最后参数估计的步骤需牢记。后续会遇到很多类似的推导过程,一般都是先各种替换变复杂最后简化。另,公式存在一点点问题,如公式的分母可能为0。原创 2023-11-30 14:31:43 · 115 阅读 · 0 评论 -
机器学习入门(第三天)——K近邻(物以类聚)
K近邻思想:物以类聚K近邻没有显式的训练过程不需要先训练再预测,直接得到结果距离度量欧式距离:两点之间直线曼哈顿距离:城市街区距离切比雪夫距离:棋盘距离K近邻的思想:物以类聚K近邻没有显式的训练过场距离度量:欧式距离、曼哈顿距离、切比雪夫距离分类方式:多数表决规则。原创 2023-11-22 16:26:48 · 438 阅读 · 0 评论 -
机器学习入门(第二天)——感知机
每个算法都是为了解决一类问题,或者说解决之前的问题所创造出来的,而感知机,在解决一类问题的时候也暴露了很多问题,变相的推动了以后的算法的改进方向。现在有一盘红豆和绿豆,怎么把红豆和绿豆分开来当红豆和绿豆放在一起时,它们却能自己分开来,为什么呢?我们怎么区分呢,假设我们随意花如下的线这样是不是就完美的区分开来了,完美解决。那么程序怎么知道x和y都大于0的豆是红豆呢?或者说,它是怎么学会这个规则的?那是不是只要一条直线不分错一个点,或者说尽可能的少分错点,那就是一条好的直线。原创 2023-11-22 16:11:03 · 150 阅读 · 0 评论 -
机器学习入门(第一天)——统计学习方法
统计学习路线:设计模型->训练->预测监督学习与非监督学习的联系与区别统计学习三要素:模型、策略、算法模型的评估:训练误差、验证误差、测试误差正则化与交叉严重泛化能力:泛化误差上界生成模型与判别模型的联想与区别分类问题:准确率、精确率、召回率、F1值标准问题回归问题:输出为连续的值。原创 2023-11-22 15:51:18 · 194 阅读 · 0 评论