机器学习
文章平均质量分 96
LiaoNanan
这个作者很懒,什么都没留下…
展开
-
《机器学习实战》—— 支持向量机
文章目录一、基于最大间隔分割数据二、寻找最大间隔三、简化版SMO算法四、加速优化的完整版 Platt SMO 算法五、在复杂数据上应用核函数六、根据建立的气候模型来预测是否会崩溃6.1 数据集6.2 预测一、基于最大间隔分割数据支持向量机优点:泛化错误率低,计算开销不大,结果易解释缺点:对参数调节和核函数的选择敏感,原始分类器不加修改仅适用于处理二类问题。适用数据类型:数值型和标称型数据。线性可分:可以很容易就在数据中给出一条直线将两组数据点分开上图的数据都是混合在一起,也就是不能原创 2021-12-23 23:31:20 · 885 阅读 · 0 评论 -
《机器学习实战》—— 朴素贝叶斯
文章目录一、朴素贝叶斯二、基于贝叶斯决策理论的分类方法三、数学知识准备3.1 条件概率3.2 全概率公式3.3 贝叶斯推断四、使用条件概率来分类五、文本分类5.1 从文本中构建词向量5.2 从词向量计算概率5.3 根据现实情况修改分类器六、使用朴素贝叶斯过滤垃圾邮件6.1 切分文本6.1 使用朴素贝叶斯进行交叉验证七、总结一、朴素贝叶斯朴素贝叶斯(Naive Bayes)是一种基于概率理论的分类算法,以贝叶斯理论为理论基础,通过计算样本归属于不同类别的概率来进行分类,是一种经典的分类算法。朴素贝叶斯是原创 2021-11-28 17:04:24 · 3016 阅读 · 0 评论 -
《机器学习实战》—— Logistic 回归
文章目录一、Logistic 回归二、基于Logistic 回归和Sigmoid 函数的分类三、梯度上升算法四、基于最优化方法的最佳回归系数确定4.1 查看数据的分布情况4.2 训练算法:使用梯度上升找到最佳参数4.3 分析数据:画出决策边界4.4 训练算法:随机梯度上升4.5 训练算法:改进随机梯度上升4.6 回归系数与迭代次数的关系一、Logistic 回归假设现在有一些数据点,我们用一条直线对这些点进行拟合(该线称为最佳拟合直线),这个拟合过程就称作回归。利用Logistic回归进行分类的主原创 2021-11-21 22:35:52 · 1152 阅读 · 0 评论 -
《机器学习实战》—— 决策树
目录一、决策树的构造1.信息增益一、决策树的构造决策树(decision tree)是一类常见的机器学习算法,它是基于树结构来进行决策的。从根节点开始一步步走到叶子节点(决策)。所有的数据最终都会落到叶子节点,既可以做分类也可以做回归。决策树优点:计算复杂度不高,输出结果易于理解,对中间值的缺失不敏感,可以处理不相关特征数据。缺点:可能会产生过度匹配问题。适用数据类型:数值型和标称型。在构造在构造决策树时,我们需要解决的第一个问题就是,当前数据集上哪个特征在划分数据分类时起决定性作用。为原创 2021-10-26 19:46:24 · 990 阅读 · 0 评论 -
《机器学习实战》—— k-近邻算法
目录一、k-近邻算法概述二、使用k-近邻算法改进约会网站的配对效果一、k-近邻算法概述简单地说,k-近邻算法采用测量不同特征值之间的距离方法进行分类。k-近邻算法优点:精度高、对异常值不敏感、无数据输入假定。缺点:计算复杂度高、空间复杂度高。适用数据范围:数值型和标称型。k-近邻算法(kNN),它的工作原理是:存在一个样本数据集合,也称作训练样本集,并且样本集中每个数据都存在标签,即我们知道样本集中每一数据与所属分类的对应关系。输入没有标签的新数据后,将新数据的每个特征与样本集中数据对应的原创 2021-09-28 18:49:55 · 683 阅读 · 0 评论