WZ机器学习面试准备

最新推荐文章于 2024-04-20 18:38:15 发布

兔子爱读书

最新推荐文章于 2024-04-20 18:38:15 发布

阅读量718

点赞数

未经许可禁止转载！

本文链接：https://blog.csdn.net/ztf312/article/details/52793308

版权

WZ：模型评估、十个文档每个一类、文本特征筛选、文本数量大（多分类器），词汇量大怎么处理

1.模型评估方式有哪些？

准确率（交叉验证）、召回率、ROC、auc、

Mean squared error：均方差，回归模型所使用的一种评价指标。

SSE：误差平方和，K-means的评估指标。

2.十个文档每个一类，多分类问题给个方案。

SVM算法最初是为二值分类问题设计的，当处理多类问题时，就需要构造合适的多类分类器。

构造SVM多类分类器的方法主要有两类：

一类是直接法，直接在目标函数上进行修改，将多个分类面的参数求解合并到一个最优化问题中，通过求解该最优化问题“一次性”实现多类分类。这种方法看似简单，但其计算复杂度比较高，实现起来比较困难，只适合用于小型问题中；

另一类是间接法，主要是通过组合多个二分类器来实现多分类器的构造，常见的方法有one-against-one和one-against-all两种：

a.一对多法（one-versus-rest,简称1-v-r SVMs）。训练时依次把某个类别的样本归为一类,其他剩余的样本归为另一类，这样k个类别的样本就构造出了k个SVM。分类时将未知样本分类为具有最大分类函数值的那类。

b.一对一法（one-versus-one,简称1-v-1 SVMs）。其做法是在任意两类样本之间设计一个SVM，因此k个类别的样本就需要设计k(k-1)/2个SVM。当对一个未知样本进行分类时，最后得票最多的类别即为该未知样本的类别。Libsvm中的多类分类就是根据这个方法实现的。
c.层次支持向量机（H-SVMs）。层次分类法首先将所有类别分成两个子类，再将子类进一步划分成两个次级子类，如此循环，直到得到一个单独的类别为止。
对c和d两种方法的详细说明可以参考论文《支持向量机在多类分类问题中的推广》（计算机工程与应用。2004）

d.其他多类分类方法。有向无环图SVM（Directed Acyclic Graph SVMs，简称DAG-SVMs）和对类别进行二进制编码的纠错编码SVMs。

3.文本特征筛选

(1) 基于统计的特征提取方法(构造评估函数)

词频方法(Word Frequency)：一个词在文档中出现的次数。将词频小于某一闭值的词删除，从而降低特征空间的维数。这个方法是基于这样一个假设，即出现频率小的词对过滤的影响也较小。但是在信息检索的研究中认为，有时频率小的词含有更多的信息。

文档频次方法(Document Frequency)：指的是在整个数据集中有多少个文本包含这个单词。在训练文本集中对每个特征计一算它的文档频次，根据阑值去除文档频次特低和特高的特征。简单、计算复杂度较低、能够适用于任何语料，因此是特征降维的常用方法。

TF-IDF：其中TF 称为词频, 用于计算该词描述文档内容的能力; IDF 称为反文档频率, 用于计算该词区分文档的能力。

互信息(Mutual Information)：互信息衡量的是某个词和类别之间的统计独立关系。它度量两个对象之间的相互性。在过滤问题中用于度量特征对于主题的区分度。

信息增益方法(Information Gain)：度量已知一个特征是否出现于某主题相关文本中对于该主题预测有多少信息。通过计算信息增益可以得到那些在正例样本中出现频率高而在反例样本中出现频率低的特征，以及那些在反例样本中出现频率高而在正例样本中出现频率低的特征。

其他：交叉熵、遗传算法、PCA、模拟退火、N—Gram算法

(2) 词本身的特性

词语直径：词语直径是指词语在文本中首次出现的位置和末次出现的位置之间的距离。词语直径是根据实践提出的一种统计特征。根据经验,如果某个词汇在文本开头处提到,结尾又提到,那么它对该文本来说,是个很重要的词汇。不过统计结果显示,关键词的直径分布出现了两极分化的趋势,在文本中仅仅出现了1 次的关键词占全部关键词的14.184 %。所以词语直径是比较粗糙的度量特征。

首次出现位置：Frank 在Kea 算法中使用候选词首次出现位置作为Bayes 概率计算的一个主要特征,他称之为距离(Distance)。简单的统计可以发现,关键词一般在文章中较早出现,因此出现位置靠前的候选词应该加大权重。实验数据表明,首次出现位置和词语直径两个特征只选择一个使用就可以了。

词语分布偏差(Deviation ( t) )：词语在文章中的统计分布。在整篇文章中分布均匀的是重要的词汇。词语的分布偏差计算公式如下: 其中,CurLoc ( tj ) 是词汇t 在文章中第j 次出现的位置;MeanLoc ( t ) 是词汇t 在文章中出现的平均位置。

4. 词汇量大的情况下如何提取特征？

选择信息增益大的词汇：意思就是一个变量可能的变化越多（反而跟变量具体的取值没有任何关系，只和值的种类多少以及发生概率有关），它携带的信息量就越大。

IG(X,Z)=H(X)−H(X|Z)=H(Z)−H(Z|X)

5. 如何看待加班？

上班时间任务饱和、更好地完成就要发挥主动性

6. 为什么选择你？

兴趣+专注=专业