统计学习
文章平均质量分 61
中杯冰美式
Talk is cheap, show me your code.
展开
-
统计学习方法--隐马尔可夫模型
1.隐马尔可夫模型简介隐马尔可夫模型由一个状态序列,一个观测序列组成,其中状态序列是不可观测的,因此叫做隐马尔可夫模型。几个重要的参数:Q,V,A,B,O,π\piπ,Q是所有可能出现的状态的几个,V是所有可能出现的观测结果的集合,A是状态转移概率矩阵,是一个NN维的方针,B是一个观测概率矩阵,是一个NM维度的矩阵,O是观测序列,长度为T,π\piπ是初始的状态概率向量,是一个N*1的向量。2.python代码实现在这部分的代码中包含了HMM的3个算法:前向,后向以及viterbi算法。其中vi原创 2022-01-25 18:52:50 · 1785 阅读 · 0 评论 -
机器学习-小知识点手册
矩阵相乘np.dot(matrix_A,matrix_B)matrix_A@matrix_B 就是普通的矩阵乘法,A列数=B行数matrix_A * matrix_B 表示的是两个矩阵的对应的元素相乘原创 2021-12-18 19:10:30 · 1123 阅读 · 0 评论 -
统计学习 EM算法 Python实现
EM算法是什么EM算法可以用于有监督学习,也可以用于无监督学习。这个算法是根据观测结果求得对含有隐变量的模型的参数的估计。包含E步骤和M步,E步是求期望,M步是求极大似然估计,极大参数估计是对模型参数估计的一种方法。一个典型的应用EM算法进行参数估计的例子就是敏感问题的调查,我们想要得到人群中吸烟人数的比例,可以设置这样一个问卷问题1:你的手机尾号是偶数吗?若是,回答问题2,不是,则回答问题3问题2:你吸烟吗问题3:你喜欢养猫吗通过调查,我们获得结果是:是否问题2N1原创 2021-12-18 11:47:26 · 1566 阅读 · 0 评论 -
统计学习boosting算法
Boosting的原理的简单理解通过构建几个弱分类器,将几个弱分类器进行集成,从而得到一个分类性能你较好的强分类器。分类器的优化也就是训练过程相当于是一个串行的过程,后一个分类器的优化是建立在前一个分类器的基础上的。Boosting算法一个常见的实例就是提升树,这个树是一个二叉树,后一个树的构建在前几个树的基础上。树的参数的确定过程实际上就相当于神经网络的训练过程。树的参数包括:所选择的用来分类的特征是什么,按照这个特征进行分类的话,分类的阈值是什么。策略就是:大于这个分类阈值的话,把样本分为-1类还是原创 2021-12-17 20:34:29 · 974 阅读 · 0 评论 -
统计学习:logistic回归 Python实现
1. 最大熵模型作用是从许多个模型中,选择一个最好的模型,选择的标准就是熵,即具有最大熵的P(Y∣X)P(Y|X)P(Y∣X)就是最好的模型。个人理解最大熵在这里起的作用类似于valid data 的作用。为什么最大熵的模型就是最好的呢?因为在自然界中,所有的分布都是趋于无序的、混乱的。最大熵准则则保留了每一种可能发生的情况,可以代表更多的可能发生的信息。比如你在猜抛掷一枚硬币,正面朝上的概率的时候,最好猜1/2而不是3/10.2.Logistic回归适用于多分类,二分类任务。分布函数是一个S形函数,原创 2021-12-12 16:24:29 · 3186 阅读 · 2 评论 -
统计学习方法-决策树原理以及代码实现
决策树代码实现from sklearn.tree import DecisionTreeClassifier# 由于存在离散值,用sklearn的preposseing进行数据的预处理from sklearn import preprocessing# 处理数据data = [['青年','否','否','一般',0],\ ['青年','否','否','好',0], ['青年','是','否','好',1], ['青年','是','是','一般',1], ['青原创 2021-12-05 11:58:20 · 116 阅读 · 0 评论 -
统计学习笔记 - KNN原理、python实现
1. KNN实现我的理解就是,找到最接近的K个邻居,根据邻居的类别,确定自己的类别。怎么确定呢?K个邻居进行投票。包括:输入一个新的实例在已知的训练数据集中计算该新的实例与训练数据集中数据点之间的距离按照距离进行排序选择距离最短的也就是最相似的前K个邻居这K个邻居根据自己的类别进行投票,票数最多的类别就是该新的实例的类别。实验踩坑记录:lp_distance = [[np.linalg.norm(x_new-x_train[i],ord=2),y_train[i]] for i in原创 2021-11-28 12:17:36 · 270 阅读 · 0 评论 -
统计学习笔记-导论 感知机算法原始、对偶形式 原理、python实现
1.过拟合产生的原因以及造成的影响统计学习有3个要素,模型、策略以及算法。给定一组数据集,需要通过模型对数据的分布进行拟合。先把原始的数据集划分为训练集、验证集和测试集,训练集用来对模型的参数进行更新,测试集用来衡量训练好的模型的性能。如果模型在训练集上的准确率很高、在测试集上的准确率很低,那么说明发生了过拟合,即模型对训练集拟合的过好了。造成的影响就是模型的泛化能力低,模型对于训练集以外的数据很难拟合。就相当于为了准备考试,使劲刷题,题库里(训练集)的题目都做对了,但是真正考试的时候(测试集)却得分很低原创 2021-11-23 21:43:01 · 591 阅读 · 0 评论