机器学习
文章平均质量分 75
昵称五个字
...
展开
-
机器学习(5):神经网络学习
概述M-P神经元模型:神经元接收到来自n个其他神经元传递过来的输入信号,这些输入信号通过带权重的连接进行传递,神经元接收到的总输入值将于神经元的阈值进行比较,然后通过“激活函数”处理以产生神经元的输出。实际常用Sigmoid函数作为激活函数把许多个这样的神经元按一定的层次结构连接起来,就得到了神经网络。事实上,从计算机科学的角度看,我们可以先不考虑神经网络是否真的模拟了生物神经网络...原创 2018-10-11 21:38:27 · 478 阅读 · 0 评论 -
精通数据科学:从线性回归到深度学习(笔记):第四章 线性回归
验旧 制作玩偶数量和成本之间的关系从机器学习的角度看这个问题确定场景类型:(1)我们需要通过生产个数的信息去预测生产成本,而在数据里面,已经有需要被模型预测的量,所以这是一个监督式学习。(2)需要被预测的成本是一个数量额。它是一个连续变化的量,而并非表示类别的离散量,所以这是一个回归问题。定义损失函数:定义一个损失函数(真实值与预测值之间的欧氏距离平方和)。模型参数的估计依赖于...原创 2018-09-23 14:54:08 · 1115 阅读 · 0 评论 -
机器学习(6):AdaBoost元算法
基于数据集多重抽样的分类器我们可以将不同的分类器组合起来,这种组合结果被称为集成方法或者元算法。使用集成方法时会有多种形式:可以是不同算法的集成,也可以是同一算法在不同设置下的集成。还可以是数据集不同部分分配给同分类器之后的集成。boostingboosting是通过集中关注被已有分类器错分的那些数据来获得新的分类器。boosting分类的结果是基于所有分类器的加权求和结果的,每个权重...原创 2018-10-20 21:27:22 · 207 阅读 · 0 评论 -
机器学习(4):支持向量机
概述优点:泛化错误率低,计算开销不大,结果易解释。 缺点:对参数调节和核函数的选择敏感,原始分类器不加修改仅适用于处理二类问题。 适用数据类型:数值型和标称型数据。分隔超平面:将数据集分隔开的平面。支持向量:离分隔超平面最近的那些点。寻找最大间隔分隔超平面的形式可以写成。现在的目标是找出定义中的w和b。为此,我们必须找到具有最小间隔的数据点,而这些数据点也就是前面提到的支...原创 2018-10-10 21:30:54 · 190 阅读 · 0 评论 -
机器学习(1):k-近邻算法
k-近邻算法概述优点:精度高、对异常值不敏感、无数据输入假定 缺点:计算复杂度高、空间复杂度高。 适用数据范围:数值型和标称型(标称型:标称型目标变量的结果只在有限目标集中取值,如真与假。标称型目标变量主要用于分类) 工作原理:存在一个样本数据集合,并且样本集中每个数据都存在标签。输入没有标签的新数据后,将新数据的每个特征与样本集中数据对应的特征进行比较,然后算法提取样本集中特征最相似(...原创 2018-09-29 21:21:21 · 248 阅读 · 0 评论 -
机器学习(3):基于概率论的分类方法:朴素贝叶斯
概述优点:在数据较少的情况下仍然有效,可以处理多类别问题。 缺点:对于输入数据的准备方式较为敏感。 使用数据类型:标称型数据。贝叶斯决策理论的核心思想:选择具有最高概率的决策。使用条件概率来分类对于某个数据点x,y:如果,那么属于类别 如果,那么属于类别使用贝叶斯准则(公式:),可以通过已知的三个概率值来计算未知的概率值。使用朴素贝叶斯进行文档分类朴素贝叶斯的两个...原创 2018-10-08 15:09:14 · 277 阅读 · 0 评论 -
机器学习 (2):决策树模型
1.概述决策树是一种简单的机器学习方法,它是对被观测数据进行分类的一种相当直观的方法。优点:计算复杂度不高,输出结果易于理解,对中间值的缺失不敏感,可以处理不相关特征数据。 缺点:可能会产生过度匹配问题。 适用数据类型:数值型和标称型。2.决策树的构造决策树学习的关键是如何选择最优划分属性。一般而言,随着划分过程的不断进行,我们希望决策树的分支节点所包含的样本尽可能属于同一类别,...原创 2018-10-05 17:56:53 · 817 阅读 · 0 评论 -
朴素贝叶斯与文本分析
概述朴素贝叶斯是一类非常简单的解决分类问题的模型。模型假设各个特征条件独立。即:(1)朴素贝叶斯包含三个模型:伯努利模型、多项式模型以及高斯模型。前两个模型常用于文本分类。特征提取我们将可能出现的文字组成一个字典,并对字典进行排序。对于一个文本,用如下向量X(向量的长度等于字典的大小)来表示它:如果字典中排在第i位的文字是否出现在当前文本里。假设字典里一共有n个可能的文字,经...原创 2018-11-05 21:23:29 · 385 阅读 · 0 评论