计算机视觉-刷题笔记day1

1.下列算法常用于聚类的是
k-means:k均值聚类算法,其随机选择k个点作为初始聚类中心,然后计算每个对象与k个点的距离并形成k个簇,每次计算都会重新计算聚类中心,因此每次聚类的结果可能不同
逻辑回归模型:拟合一条曲线,一般用于二分类问题,估计某种事物的可能性。注意,这里的可能性不指概率;logistic回归是一种广义线性回归(generalized linear model),因此与多重线性回归分析有很多相同之处。它们的模型形式基本上相同,都具有 w‘x+b,其中w和b是待求参数,其区别在于他们的因变量不同,多重线性回归直接将w‘x+b作为因变量,即y =w‘x+b,而logistic回归则通过函数L将w‘x+b对应一个隐状态p,p =L(w‘x+b),然后根据p 与1-p的大小决定因变量的值。如果L是logistic函数,就是logistic回归,如果L是多项式函数就是多项式回归。
决策树模型:直观运用概率分析的一种图解法;
随机森林模型:包含多个决策树的分类器。集群分类模型的一种,随机森林=决策树+bagging,用随机的方式建立一个森林,森林由很多决策树组成,且每一棵决策树之间是没有关联的。
它通过随机抽样获得的数据,输入众多弱学习器,也就是决策树,并进行投票,最终获得最终的输出结果。是一个原理简单,精确度高,且用处很广泛的模型。可以用在以下场景:回归,分类问题,无监督学习聚类,以及异常点检测.

以下属于生成式模型的是:()
生成式模型包括HMM(隐马尔可夫模型),GMM(高斯混合模型),LDA(线性判别模型),朴素贝叶斯模型.隐马尔可夫模型
在这里插入图片描述

下列哪个不属于常用的文本分类的特征选择算法?
特征提取算法分为特征选择和特征抽取两大类,其中特征选择算法有互信息,文档频率,信息增益,开方检验,卡方检验等。
主成分分析不是文本分类特征选择算法。
互信息:互信息是两个随机变量间相互依赖性的量度,用I(X;Y)表示。
互信息度量两个随机变量共享的信息——知道随机变量X,对随机变量Y的不确定性减少的程度(或者知道随机变量Y,对随机变量X的不确定性减少的程度。
文档频率:df就是文档频率,它的全程就是document frequency,它是指某个词的文档频率,这个词在多少个文档中出现,那么,该词的df就是几。df也是特征选择的一个指标。目前常用的是逆文档频率,这个词在出现的文档越少就越有指向性。
信息增益:信息增益越大,则意味着使用属性a进行划分所获得的"纯度提升"越大 .因此可以用信息增益来进行决策树的划分属性选择.
开方检验:在这里插入图片描述

卡方检验:卡方检验是一种统计量的分布在零假设成立时近似服从卡方分布的假设检验。在没有其他的限定条件或说明下,卡方检验一般指的是皮尔森卡方检验。
特征选择是针对所要解决的问题从原始特征集选择到一组最佳的特征子集,具体包括删除无关的,冗余的,含有噪声的特征。
对于分类问题,在Filter方法中一般假设与分类目标独立的特征为无关特征,而 卡方检验可以进行 独立性检验,所以其适用于 特征选择。

K方检验做特征选择属于一种 Filter方法,如果检验结果是某个特征与标签独立,则可以删除该特征。
什么是卡方分布
定义:若n个相互独立的随机变量z1,z2,…,zn ,均服从标准正态分布N(0,1),则这n个服从标准正态分布的随机变量的平方和构成一新的随机变量,其分布规律称为卡方分布.
卡方检验
思想:
1.假设数据服从某种分布,或某种模型;
2.计算出符合此模型的数据,即为期望数据;
3.实际观测到的数据和2中计算得到的期望数据相比较(卡方检验的公式);
4.得到的卡方值过大,说明偏差过大,则拒绝假设模型。
卡方检验适用于类别变量 ,如好、坏等分类。
卡方检验公式:χ²=∑(Oi-Ei)²\Ei
自由度:df=(row-1)(column-1)
主成分分析:是特征转换算法(特征抽取),而不是特征选择。通过正交变换将一组可能存在相关性的变量转换为一组线性不相关的变量,转换后的这组变量叫主成分。
现在假设负样本量:正样本量=20:1,下列哪些方法可以处理这种不平衡的情况?()
直接训练模型,预测的时候调节阈值
下采样对少样本进行扩充,以增加正样本数量
随机降采样负样本

假定某同学使用Naive Bayesian(NB)分类模型时,不小心将训练数据的两个维度搞重复了,那么关于NB的说法中正确的是:
朴素贝叶斯分类模型
我们经常会需要在已知P(A|B)的情况下求P(B|A)。例如医生知道某种病存在什么症状,但是在诊断时,医生是根据病人出现的症状确定患者得了什么病。幸运的是如果此时我们还直到P(A)的话,我们就可以根据贝叶斯规则来实现这一目的:
在这里插入图片描述
在这里插入图片描述
NB的核心在于它假设向量的所有分量之间是独立的。
在贝叶斯理论系统中,都有一个重要的条件独立性假设:假设所有特征之间相互独立,这样才能将联合概率拆分。而两个维度重复的情况下,模型效果相比之下精确度会降低,当两列特征高度相关时无法用两列特征相同时所得到的结论来分析问题,

下面关于支持向量机(SVM)的描述错误的是( )?
判别式模型(Discriminative Model)是直接对条件概率p(y|x;θ)建模。
常见的判别式模型有 线性回归模型、线性判别分析、支持向量机SVM、神经网络等。

生成式模型(Generative Model)则会对x和y的联合分布p(x,y)建模,然后通过贝叶斯公式来求得p(yi|x),然后选取使得p(yi|x)最大的yi,
常见的生成式模型有 隐马尔可夫模型HMM、朴素贝叶斯模型、高斯混合模型GMM、LDA等。

关于支持向量机SVM:
在这里插入图片描述
在这里插入图片描述
它是一种监督式学习的方法,可用于多分类的问题,支持非线性的核函数,显然属于一种判别式模型而非生成式模型。

条件随机场:
“条件随机场”被用于中文分词和词性标注等词法分析工作,一般序列分类模型常常采用隐马尔可夫模型(HMM),像基于类的中文分词。
假设我们有Bob一天从早到晚的一系列照片,Bob想考考我们,要我们猜这一系列的每张照片对应的活动,比如: 工作的照片,吃饭的照片,唱歌的照片等等。一个比较直观的办法就是,我们找到Bob之前的日常生活的一系列照片,然后找Bob问清楚这些照片代表的活动标记,这样我们就可以用监督学习的方法来训练一个分类模型,比如逻辑回归,接着用模型去预测这一天的每张照片最可能的活动标记。这种办法虽然是可行的,但是却忽略了一个重要的问题,就是这些照片之间的顺序其实是有很大的时间顺序关系的,而用上面的方法则会忽略这种关系。比如我们现在看到了一张Bob闭着嘴的照片,那么这张照片我们怎么标记Bob的活动呢?比较难去打标记。但是如果我们有Bob在这一张照片前一点点时间的照片的话,那么这张照片就好标记了。如果在时间序列上前一张的照片里Bob在吃饭,那么这张闭嘴的照片很有可能是在吃饭咀嚼。而如果在时间序列上前一张的照片里Bob在唱歌,那么这张闭嘴的照片很有可能是在唱歌。
为了让我们的分类器表现的更好,可以在标记数据的时候,可以考虑相邻数据的标记信息。这一点,是普通的分类器难以做到的。而这一块,也是CRF比较擅长的地方。在实际应用中,自然语言处理中的词性标注(POS Tagging)就是非常适合CRF使用的地方。词性标注的目标是给出一个句子中每个词的词性(名词,动词,形容词等)。而这些词的词性往往和上下文的词的词性有关,因此,使用CRF来处理是很适合的,当然CRF不是唯一的选择,也有很多其他的词性标注方法。

朴素贝叶斯:
https://baijiahao.baidu.com/s?id=1699439532250738747&wfr=spider&for=pc

隐马尔科夫:用来描述一个含有隐含未知参数的马尔可夫过程。其难点是从可观察的参数中确定该过程的隐含参数。然后利用这些参数来作进一步的分析,例如模式识别。

在其他条件不变的前提下,以下哪种做法容易引起机器学习中的过拟合问题()
增加训练集量
减少神经网络隐藏层节点数
删除稀疏的特征
SVM算法中使用高斯核/RBF核代替线性核
造成过拟合的原因主要有:
1、训练数据不足,有限的训练数据
2、训练模型过度导致模型非常复杂,泛化能力差
选项A增加训练集可以解决训练数据不足的问题,防止过拟合
选项B对应使得模型复杂度降低,防止过拟合
选项C类似主成分分析,降低数据的特征维度,使得模型复杂度降低,防止过拟合
选项D使得模型的复杂化,会充分训练数据导致过拟合

Adaboost是一种迭代算法,其核心思想是针对同一个训练集训练不同的分类器(弱分类器),然后把这些弱分类器集合起来,构成一个更强的最终分类器(强分类器)。每次分类后调整权重对错分的类别加大权重,是迭代的算法,不是并行,也就是说并不能同时独立地学习多个分类器,而是一轮一轮学习弱分类器,也就是弱分类器的线性组合。

Boosting:同质弱学习器 顺序串行 学习
Bagging:同质弱学习器 独立并行 学习

1)CRF没有HMM那样严格的独立性假设条件,因而可以容纳任意的上下文信息。特征设计灵活(与ME一样) ————与HMM比较
(2)同时,由于CRF计算全局最优输出节点的条件概率,它还克服了最大熵马尔可夫模型标记偏置(Label-bias)的缺点。 ­­————与MEMM比较
(3)CRF是在给定需要标记的观察序列的条件下,计算整个标记序列的联合概率分布,而不是在给定当前状态条件下,定义下一个状态的状态分布。
————与ME比较
缺点:训练代价大、复杂度高

树模型一般不需要做归一化处理,做归一化处理的目的主要为了使同一特征的取值在同一量纲,降低方差太大带来的影响。树模型并不关心特征的具体取值,只关心特征取值的分布。
在这里插入图片描述
在统计模式识分类问题中,当先验概率未知时,可以使用()
N-P判决
最小最大损失准则

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
"Labuladong"是一个著名的算法题解博主,他的刷题笔记非常受欢迎。他的笔记具有以下几个特点: 1. 思路清晰:Labuladong的刷题笔记总是能够很清晰地阐述解题思路。他善于将复杂的问题简化为易于理解的小问题,并通过逐步引入关键概念和方法,帮助读者理解并掌握解题思路。 2. 逻辑严谨:Labuladong的刷题笔记经过深思熟虑,逻辑严谨。他会从问题的定义开始,逐步引入相关的概念和解题思路,循序渐进地解决问题。这种严谨的逻辑结构有助于读者理解和消化算法的核心思想。 3. 举例详细:Labuladong的刷题笔记通常会通过具体的例子来说明解题思路。这种举例的方式不仅能够帮助读者更好地理解解题方法,还可以帮助读者更好地应用这些方法解决其他类似的问题。 4. 知识点整合:Labuladong的刷题笔记不仅仅是一个题解,而是将相关的算法知识点整合起来,构建出一个完整的学习体系。他会引入一些底层的算法原理,将不同的解题方法进行比较和总结。这种整合的方式能够帮助读者更好地理解和掌握算法的本质。 总之,Labuladong的刷题笔记以其思路清晰、逻辑严谨、举例详细和知识点整合等特点,为广大读者提供了一种深入学习和理解算法的有效途径。通过阅读他的刷题笔记并进行实践,读者能够提高解题能力,并在面对各种算法问题时能够找到正确、高效的解决方法。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值