![](https://img-blog.csdnimg.cn/20201014180756780.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
算法梳理
视界IT
这个作者很懒,什么都没留下…
展开
-
算法梳理boosting\bagging\RF(1)
LeetCode题目记录1.集成学习概念1.1 集成学习分类1.2 集成学习步骤2.个体学习器概念3.boosting & bagging3.1 boosting3.2 bagging3.3 二者的区别4.随机森林的思想5.随机森林的推广6.随机森林的优缺点7.应用范围1.集成学习概念集成学习方法,就是将训练的学习器集成在一起,原理来源于PAC (Probably Approximat...原创 2019-04-05 15:43:17 · 734 阅读 · 0 评论 -
面试(7):归一化
归一化1、归一化的类型2、为什么要进行归一化3、哪些模型需要归一化,哪些不需要归一化?1、归一化的类型1)线性归一化x′=x−min(x)max(x)−min(x)x^{\prime}=\frac{x-\min (x)}{\max (x)-\min (x)}x′=max(x)−min(x)x−min(x)这种归一化方法比较适用在数值比较集中的情况。这种方法有个缺陷,如果max和...原创 2019-07-21 23:10:38 · 299 阅读 · 0 评论 -
面试(9):朴素贝叶斯
特征选择与特征提取(降维)1、朴素贝叶斯为什么”朴素“2、简要说说贝叶斯定理(推导)3、半朴素贝叶斯与朴素贝叶斯1、朴素贝叶斯为什么”朴素“ 因为它假定所有特征在数据集中的作用是同样重要和相互独立的。这个假设在现实世界中是很不真实的,因此,说朴素贝叶斯很“朴素”。朴素贝叶斯模型假设样本特征彼此独立。这个假设现实中基本上不存在, 但特征之间有较小的相关性,这在现实生活中普遍存在,因此朴素贝叶...原创 2019-07-24 17:39:27 · 312 阅读 · 0 评论 -
面试(8):非平衡数据
特征选择与特征提取(降维)1、非平衡数据2、处理非平衡数据3、数据层面3.1 过采样3.2 欠采样3.3 过采样与欠采样结合4、算法层面1、非平衡数据 常见的分类模型中一般假设分类类别的比例是均衡的,但是现实中常出现正负样本数量不均衡的情况,比如对广告点击情况进行预测(广告点击率是比较少的),商品推荐(推荐商品被购买的数量比较少),贷款违约预测(违约的情况比较少),那么就需要对非平衡数据进行...原创 2019-07-24 11:06:21 · 502 阅读 · 0 评论 -
面试(5):L1正则与L2正则
L1正则与L2正则1、概述2、区别1、概述 L1正则和L2正则是为了防止模型过拟合,添加在损失函数后面,构成对模型复杂的惩罚项。结构风险 = 经验风险+惩罚项(正则化)Lasso回归,L1正则:J(θ)=12n(Xθ−Y)T(Xθ−Y)+α∥θ∥1J(\theta)=\frac{1}{2 n}(\mathbf{X} \theta-\mathbf{Y})^{T}(\mathbf{X} ...原创 2019-07-12 14:15:16 · 837 阅读 · 0 评论 -
面试(6):特征选择与特征提取(降维)
特征选择与特征提取(降维)1、相同点与不同点2、特征选择2.1 过滤型(Filter)2.2 包裹型(Wrapper)2.3 嵌入型(Embedded)3、特征提取(降维)3.1 主成分分析法(PCA)3.2 线性判别分析法(LDA)1、相同点与不同点相同点:特征选择和特征提取二者达成的效果相似,都是试图减少数据集中属性(特征)的数量,找出最有效(同类样本的不变性、不同样本的鉴别性、对噪声的...原创 2019-07-13 16:44:07 · 6708 阅读 · 1 评论 -
链表,二叉树,堆,栈等增删改查的时间复杂度
链表,二叉树,堆,栈等增删改查的时间复杂度一、常用数据结构增删查时间复杂度1、数组1.1 正常数组:1.2 无下标数组:1.3 有序无下标数组:2、链表2.1 单向无序链表:2.2 单向有序链表:2.3 二叉排序树:一、常用数据结构增删查时间复杂度https://blog.csdn.net/MOMONGA/article/details/51578602https://blog.csdn.n...原创 2019-06-20 18:02:20 · 5073 阅读 · 0 评论 -
常见排序算法及其时间复杂度
常见排序算法及其时间复杂度 一、内部排序:1.稳定的排序算法1.1 冒泡排序1.1.1 冒泡排序流程1.1.2 冒泡排序的实现1.2 插入排序1.2.1 插入排序流程1.2.2 插入排序的实现1.3 归并排序1.3.1 归并排序流程1.3.2 归并排序的实现1.4 桶排序1.4.1 桶排序流程1.4.2 桶排序的实现1.5 基数排序1.5.1 基数排序流程1.5.2 基数排序的实现1.6 二叉树排...原创 2019-06-20 18:00:18 · 25219 阅读 · 3 评论 -
机器学习西瓜书(周志华)第四章 决策树
第四章 决策树1. 概述2. 特征选择2.1 信息增益2.2 信息增益率2.3 基尼指数3. 决策树生成4. 决策树剪枝4.1 预剪枝2. 对数几率回归(logistic regression)2.1 对数几率函数(logistic function)2.2 用极大似然求解2.3 LR的多分类问题3. 线性判别分析4. 多分类学习4.1 利用二分类学习器解决多分类问题4.2 最经典的拆分策略(Ov...原创 2019-05-22 21:44:54 · 10510 阅读 · 0 评论 -
数据结构 2. 链表
Leetcode部分链表相关练习一、链表1.实现单链表、循环链表、双向链表,支持增删操作2.实现单链表反转3.实现两个有序的链表合并为一个有序链表4.实现求链表的中间结点练习141. 环形链表23. 合并K个排序链表一、链表借鉴[https://blog.csdn.net/dzysunshine/article/details/88041673]1.实现单链表、循环链表、双向链表,支持增删操...原创 2019-05-12 01:29:35 · 162 阅读 · 0 评论 -
深度学习提高泛化能力的技术
LeetCode题目记录1.泛化能力(generalization)2.正则化(regularization)2.1 正则化方法1.泛化能力(generalization)对于模型,我们不仅要求它对训练数据集有很好的拟合(训练误差),同时也希望它可以对未知数据集(预测集)有很好的拟合结果(泛化能力),所产生的测试误差被称为泛化误差。度量泛化能力的好坏,最直观的表现就是模型的过拟合(over...原创 2019-04-14 15:37:34 · 22921 阅读 · 0 评论 -
GBDT算法梳理
LeetCode题目记录1.前向分步算法2.GBDT算法3.GBDT负梯度拟合4.GBDT损失函数5.GBDT回归算法6.GBDT正则化7.GBDT优缺点8. sklearn 参数1.前向分步算法Boosting家族中另一个重要的算法梯度提升树(Gradient Boosting Decison Tree, 以下简称GBDT)做一个总结。GBDT有很多简称,有GBT(Gradient Boos...转载 2019-04-07 21:07:32 · 568 阅读 · 0 评论 -
XGBoost
LeetCode题目记录1.XGBoost概念2.集成思想3.分析XGboost思路4.原理推导5.正则化6.优缺点7. sklearn 参数1.XGBoost概念XGBoost全名叫(eXtreme Gradient Boosting)极端梯度提升,经常被用在一些比赛中,其效果显著。它是大规模并行boosted tree的工具,它是目前最快最好的开源boosted tree工具包。XGBoo...转载 2019-04-10 21:38:25 · 3514 阅读 · 0 评论 -
面试(10):欧氏距离和曼哈顿距离、K-means和EM算法对比
欧氏距离和曼哈顿距离、K-means和EM算法对比1、欧式距离和曼哈顿距离2、K-means和EM算法比较1、欧式距离和曼哈顿距离 欧式距离用于计算两点或多点之间的距离。d(x,y)=(x1−y1)2+(x2−y2)2+⋯+(xn−yn)2=∑i=1n(xi−yi)2d(x, y) =\sqrt{\left(x_{1}-y_{1}\right)^{2}+\left(x_{2}-y_{2}...原创 2019-07-28 20:39:37 · 6132 阅读 · 0 评论