机器学习
吾我
这个作者很懒,什么都没留下…
展开
-
K-近邻算法
K-近邻算法 K-近邻算法 通过计算目标数据数据到训练数据地距离,根据距离的排序,选择排名靠前的几个训练数据类型,投票决定预测类型 优点精度高,对异常值不敏感,无数据输入假定缺点计算复杂度较高,空间复杂度高适用范围数值型数据和标称型数据一般流程 收集数据 准备数据:距离计算所需数值,最好是结构化的数据格式 分析数据 训练算法:该步骤不适用于K-近邻算法 测试算法:计算算法的错误率 使用算法原创 2016-11-21 23:21:08 · 249 阅读 · 0 评论 -
决策树
决策树 每次选择一个特征进行划分,信息依照该特征划分可以选择最大增益划分。划分后将该特征移除,一直到所有训练数据均已分类成功或所有特征均已经使用原创 2016-11-21 23:41:57 · 212 阅读 · 0 评论 -
朴素贝叶斯
朴素贝叶斯 朴素贝叶斯 通过对目标数据计算概率,选择概率最大的分类。算法需要一个先验输入,例如邮件分类系统中需要对此前收到的邮件进行统计算垃圾邮件的占比 优点在数据较少的情况下仍然有效,可以处理多类别问题缺点对于输入数据的准备方式较为敏感适用数据类型标称型数据一般过程 收集数据 准备数据:需要数值或者布尔型数据 分析数据:有大量特征时绘制特征作用不大,此时使用直方图效果更好 训练算法:计算原创 2016-11-21 23:54:16 · 294 阅读 · 0 评论 -
Logistic回归
Logistic回归 Logistic回归 该算法使用海维塞得阶跃函数进行二值分类,训练算法的过程就是在寻找回归系数。分类时用回归系数和输入向量的点乘计算阶跃函数的参数,寻找回归系数的过程可以使用梯度上升法,选择移动量最大的方向来迭代更新系数 优点计算代价不高,易于理解和实现缺点容易欠拟合,分类精度可能不高适用数据类型数值型和标称型数据一般过程 收集数据 准备数据:由于需要进行距离计算,因原创 2016-11-22 23:36:54 · 289 阅读 · 0 评论