机器学习
tracydragonlxy
这个作者很懒,什么都没留下…
展开
-
第一章 机器学习基础
第一章 机器学习基础 1.2 关键术语 训练集是用于训练机器学习算法的数据样本集合。 目标变量是机器学习算法的预测结果,在分类算法中目标变量的类型通常是标称型的,而在回归算法中通常是连续型的。 类别:分类问题中的目标变量,分类问题只存在有限个数的类别。 注意 特征或者属性通常是训练样本集的列,它们是独立测量得到的结果,多个特征联系在一起共同组成一个训练样本。 1.3 机器学习的主要任务 分类...原创 2018-10-12 13:42:00 · 194 阅读 · 0 评论 -
第二章 k-近邻算法
第二章 k-近邻算法 2.1 k-近邻算法概述(KNN) k-近邻算法采用测量不同特征值之间的距离方法进行分类。 优点:精度高、对异常值不敏感、无数据输入假定。 缺点:计算复杂度高、空间复杂度高。 适用数据范围:数值型和标称型。 工作原理: 存在一个样本数据集合,也称作训练样本集,并且样本集中每个数据都存在标签,即我们知道样本集中每一数据与所属分类的对应关系。输入没有标签的新数据后...原创 2018-10-12 13:59:06 · 334 阅读 · 0 评论 -
第三章 决策树
第3章 决策树 决策树的构造 优点:计算复杂度不高,输出结果易于理解,对中间值的缺失不敏感,可以处理不相关特征数据。 缺点:可能会产生过度匹配问题。 适用数据范围:数值型和标称型。 在构造决策树时,我们需要解决的第一个问题就是,当前数据集上哪个特征在划分数据分类时起决定性作用。为了找到决定性的特征,划分出最好的结果,我们必须评估每个特征。完成测试之后,原始数据集就被划分为几个数据子...原创 2018-10-29 10:49:58 · 352 阅读 · 0 评论 -
第四章 基于概率论的分类方法:朴素贝叶斯
第4章 基于概率论的分类方法:朴素贝叶斯 前两章我们要求分类器做出艰难决策,给出 “该数据实例属于哪一类”这类问题的明确答案。不过,分类器有时会产生错误结果,这时可以要求分类器给出一个最优的类别猜测结果,同时给出这个猜测的概率估计值。 4.1 基于贝叶斯决策理论的分类方法 朴素贝叶斯法是基于贝叶斯定理与特征条件独立假设的分类方法。朴素贝叶斯分类器基于一个简单的假定:给定目标值时属性之间相互条件独立...原创 2018-10-29 11:19:15 · 1297 阅读 · 0 评论 -
第五章 Logistic回归
第5章 Logistic回归 假设现在有一些数据点,我们用一条直线对这些点进行拟合(该线称为最佳拟合直线),这个拟合过程就称作回归。利用Logistic回归进行分类的主要思想是:根据现有数据对分类边界线建立回归公式,以此进行分类。 Logistic回归的一般流程 收集数据:可以使用任何方法。 准备数据:由于需要进行距离计算,因此要求数据类型为数值型。另外,结构化数据格式则最佳。 分析数据:采用任...原创 2018-11-14 16:55:38 · 536 阅读 · 0 评论