机器学习实战
文章平均质量分 92
老杨2011
风口上的人工智能
展开
-
实战07- 模型融合:利用AdaBoost元算法提高分类性能
元算法(meta-algorithm)是对其他算法进行组合的一种方式,即模型融合。模型融合主要分为三种:Bagging、Boosting和Stacking。思想:将弱分类器融合成强分类器,融合后比最强的弱分类器更好。视频导学:https://www.bilibili.com/video/BV1y4411g7ia?p=8参考:https://www.cnblogs.com/hithink/p/6424508.htmlhttps://www.cnblogs.com/rongyux/p/562185原创 2020-10-05 14:14:29 · 589 阅读 · 0 评论 -
实战02 近朱者赤,近墨者黑——kNN
classify0(待判定的样本向量, 数据集矩阵, 标签向量, k值(选前k个))sqDiffMat.sum(axis=1) 表示同一行累加(axis=0表示同一列累加)pycharm->Ctrl+A(全选)->Ctrl+Alt+L(格式化代码)shell中 导入模块 import kNNfrom imp import * ————&amp原创 2018-12-23 15:50:36 · 252 阅读 · 0 评论 -
实战04 似是而非,概率大小——朴素贝叶斯
朴素贝叶斯决策论的核心思想:选择高概率对应的类别。贝叶斯概率:先验概率p(c)p(c)p(c) 和后验概率p(c∣x)p(c|x)p(c∣x)贝叶斯准则:p(c∣x)=p(x∣c)p(c)p(x)p(c|x) = \frac{p(x|c) p(c)}{p(x)}p(c∣x)=p(x)p(x∣c)p(c)1 本章的核心是:利用条件概率来分类如果p(c1∣x,y)>p(...原创 2019-01-03 22:23:22 · 287 阅读 · 0 评论 -
实战01 统揽全局
1.如何选择合适机器学习算法?在选择合适算法之前,需要考虑两个问题:一是算法任务目的是什么,是预测概率还是分类;二是收集的数据是什么,是图片、文本、视频等类型,是否有缺失值和异常值等。可以简单参考一下图表。...原创 2019-01-04 10:04:06 · 114 阅读 · 0 评论 -
实战05 梯度登峰,陡径通幽——Logistic回归
逻辑回归-参数迭代公式推导sigmoid函数求导证明完整电子版过程原创 2019-01-04 14:28:53 · 175 阅读 · 0 评论 -
实战06 顶天立地,三分天下——支持向量机SVM
SVM有三宝:间隔,对偶,核技巧。软间隔松弛变量(ζ{\zeta }ζ) or 惩罚因子( C)核函数与松弛变量: 一般的过程应该是这样,还以文本分类为例。在原始的低维空间中,样本相当的不可分,无论你怎么找分类平面,总会有大量的离群点,此时用核函数向高维空间映射一下,虽然结果仍然是不可分的,但比原始空间里的要更加接近线性可分的状态(就是达到了近似线性可分的状态),此时再用松弛变量处理那些少数...原创 2019-01-07 21:44:57 · 198 阅读 · 0 评论 -
实战03 分门别类 非此即彼——决策树
适用类型:数值型和标称型。优点:对中间值的缺失不敏感。寻找划分数据集的最好特征——信息增益划分数据集——最大信息增益array类型不具有append()方法,需要强转为list类型。#使用pickle模块存储决策树def storeTree(inputTree, filename):import picklefw = open(filename, ‘wb’, 0)#wb的写入方...原创 2019-01-07 22:02:06 · 156 阅读 · 0 评论