2019年02月_张楚岚

原创算法刷题（7）

题目一：假定你使用SVM学习数据X，数据X里面有些点存在错误。现在如果你使用一个二次核函数，多项式阶数为2，使用惩罚因子C作为超参之一。当你使用较大的C（C趋于无穷），则：A仍然能正确分类数据B不能正确分类C不确定D以上均不正确解析：正确答案是：A，采用更大的C，误分类点的惩罚就更大，因此决策边界将尽可能完美地分类数据。参考题目二：假设你训练...

2019-02-19 11:38:24 675

原创算法刷题（6）

题目一：如果将数据中除圈起来的三个点以外的其他数据全部移除，那么决策边界是否会改变？ A会B不会解析：正确答案是： B，决策边界只会被支持向量影响，跟其他点无关。题目二：关于SVM泛化误差描述正确的是A超平面与支持向量之间距离BSVM对未知数据的预测能力CSVM的误差阈值解析：正确答案是： B，统计学中的泛化误差是指对模型对未知数...

2019-02-17 21:50:11 799

原创算法刷题（5）

题目一：关于 ARMA 、 AR 、 MA 模型的功率谱，下列说法正确的是（）AMA模型是同一个全通滤波器产生的BMA模型在极点接近单位圆时，MA谱是一个深谷CAR模型在零点接近单位圆时，AR谱是一个尖峰DRMA谱既有尖峰又有深谷解析：正确答案是：D，具体参考https://blog.csdn.net/d07qs2kxkh0kksxex/article...

2019-02-16 11:16:12 975

原创数据结构课程：图论

图基础：定义：描述事物之间的关系。包括：节点集V={V1,V2......,Vn}，边集合E={e1，e2，......,em},其中ei=（vi，vi‘） G=<V,E> 包括有向图和无向图空间复杂度一般为：O（n+m）或O(n2）主要应用包括：邻接矩阵，邻接表图的存储结构： 1、邻接矩阵表示法：如果第 1个点和第 3个点相连则 matrix...

2019-02-12 17:27:52 476

原创算法刷题（4）

题目一：基于统计的分词方法为（）A正向最大匹配法B逆向最大匹配法C最少切分D条件随机场解析：答案（D）分词主要分为三类：第一类是基于语法和规则的分词法。其基本思想就是在分词的同时进行句法、语义分析,利用句法信息和语义信息来进行词性标注,以解决分词歧义现象。因为现有的语法知识、句法规则十分笼统、复杂,基于语法和规则的分词法所能达到的精确度远远还不能...

2019-02-11 08:55:10 424

原创算法刷题（3）

问题一：对于线性回归，我们应该有以下哪些假设？1. 找到离群点很重要, 因为线性回归对离群点很敏感2. 线性回归要求所有变量必须符合正态分布3. 线性回归假设数据没有多重线性相关性A1 和 2B2 和 3C1,2 和 3D以上都不是解析：答案: D第1个假设, 离群点要着重考虑, 第一点是对的第2个假设, 正态分布不是必须的. 当然...

2019-02-10 00:06:35 1592

原创数据结构课程：算法初步

算法主要学习的问题：穷举：求N个数的全排列、八皇后问题分而治之：二分查找、归并排序贪心：最小生成树Prim，Kruskal 动态规划：背包、士兵路径复杂度是算法的核心问题，主要分为时间和空间，使用大O记号（忽略系数）。时间：指占用内存字节数空间：指空间可以在利用时空可以互换，通过Hush表主要有以下几个常见取值：O（1）：基本运算，加减乘除，取模，寻址 O（lo...

2019-02-08 16:24:49 204

原创算法刷题（2）

题目一：对应GradientBoosting tree算法，以下说法正确的是:1. 当增加最小样本分裂个数，我们可以抵制过拟合2. 当增加最小样本分裂个数，会导致过拟合3. 当我们减少训练单个学习器的样本个数，我们可以降低variance4. 当我们减少训练单个学习器的样本个数，我们可以降低biasA2 和 4B2 和 3C1 和 3D1 和 4解析：答案: C...

2019-02-07 23:39:43 756

原创算法刷题（1）

问题一：当在文本数据中创建一个机器学习模型时，你创建了一个输入数据为 100K 的文献检索词矩阵（document-term matrix）。下列哪些纠正方法可以用来减少数据的维度——1. 隐狄利克雷分布（Latent Dirichlet Allocation）2. 潜在语义索引（Latent Semantic Indexing）3. 关键词归一化（Keyword Normalizat...

2019-02-06 21:39:30 1762

算法人生