机器学习
文章平均质量分 89
山人自有锦囊妙计
在职马龙
立志成为大飞哥一样的人
展开
-
机器学习面试
面试:常见的激活函数Sigmoid函数ReLu函数max(0,x)原创 2018-12-13 21:37:38 · 153 阅读 · 0 评论 -
线性回归
线性回归回归得到的是一个区间值,如银行根据年龄和工资预测出贷款的额度逻辑回归模型最终拟合出一条直线线性回归是找拟合平面拟合平面由特征和对应参数组成,我们要做的是确定出参数然后把新数据带入到拟合面对应的函数(说明新数据求出的值一定在拟合平面上),再加上误差就得到预测值横轴特征加上小范围的浮动,有利于拟合出逻辑回归的模型如果是一条直线,就不知道在纵轴的某个值分布的有多少...原创 2018-09-30 14:19:25 · 656 阅读 · 0 评论 -
LR逻辑回归
LR逻辑回归先看线性回归,sigmoid函数中的z就是线性回归的内容。线性回归带入SIGMOD函数目的:训练出0/1分类器步骤想到sigmoid函数中的概率→目标函数P(y|θ,x),hθ(x)→求θ,取似然函数,取对数L(θ)→max(L(θ))→min((L(θ)))→求偏导,另偏导为0线性回归的升级虽然叫回归,但是是最厉害的二分类算法非线性就是高阶(视频...原创 2018-10-01 18:37:32 · 295 阅读 · 0 评论 -
SVM支持向量机
SVM支持向量机可以做分类(经典的二分类问题)也可以做回归如上图,不能找到一个边界将×和○分开?可以使用核函数,将数据映射到高维进行分割边界都必须是直线吗?可以是直线也可以是平面‘无论选哪一个决策面,支持向量(雷区点)都不会改变(作垂线可以很清楚的发现),从而就涉及到下面的第一步,找点决策边界:是中间的那条实线,不是雷区边界线选择的决策边界是②...原创 2018-10-08 16:19:30 · 874 阅读 · 0 评论 -
KMEANS
KMEANSDBSCAN算法用于聚类(详见视频)之前套路是找到目标函数,不断优化现在是无监督问题,没有了标签。有标签情况下便于多种不同评估,基于预测值和真实值(即标签值)的差异来评估模型的,通过评估值也便于选择参数聚类目标:将给定数据分成K个簇,并给出每个数据对应的簇中心首先告诉机器需要把数据分成多少堆,即指定K值,k=3 表示将数据聚类成3个堆,在数据中随机生成3个...原创 2018-10-09 11:04:43 · 501 阅读 · 0 评论 -
集成算法(stacking模型面试重点)
集成算法平安科技,之后和别人聊到的时候,都被问到怎么集成的一般看到的准确率比较高的算法都是集成出来的集成优点:①使模型的边界更加稳定(这一点怎么理解)②过拟合的风险更低 (数据不会被模型全部分到某个类别)预测结果平均两个不同分类器(选取的特征不同)的预测值取平均bagging:并行集成典型算法:随机森林,将多个决策树集成在一起。与单个模型相比,集成后模型的准...原创 2018-10-09 17:40:45 · 8710 阅读 · 1 评论 -
决策树
决策树提炼步骤:1、原始数据标签的熵值(根据两类概率计算出)2、特征分类(如:天气特征分类为晴朗,多云等)后对应的熵值×此类在特征中的统计概率=特征分类后的熵值3、根据最大差值来决定谁是根节点决策树的惩罚项:即限制树的深度,叶子节点的个数等。惩罚项的具体表达式如下:这与Xgboost的损失函数项是相同的既可以做分类也可以做回归,如下图的分类树先拿...原创 2018-10-09 17:51:47 · 290 阅读 · 0 评论 -
Xgboost
XgboostXgboost和决策树联系在一起样本数乘权值一棵树一棵树往里加的,每加一颗树后的结果都比没之前好叶子节点中的样本数可能大于1加了一个树用f1(xi)表示t表示总使用了t颗树总的目标函数有两部分:一部分是优化预测值和真实值的差异,即差值平方另一部分是损失函数:即正则化惩罚项T表示叶子节点的个数,γ系数表示惩罚力度样本的...原创 2018-10-12 15:08:17 · 217 阅读 · 0 评论 -
贝叶斯算法
贝叶斯算法笔试遇到的概率题目就是出自此处(好好去理解透彻)逆概问题实现不知道分布,根据多次的实验可以反推出分布公式推导:问题来了,如果不知道学校总人数U,怎么处理,贝叶斯公式就是说了概率的计算与总人数U值无关,分子分母均有,被约掉由上可以推导出贝叶斯公式:实例一:单词纠错,纠正为那个单词的问题...原创 2018-10-10 17:28:35 · 246 阅读 · 0 评论 -
PCA和LDA
PCA和LDAPCA(principal component analysis):主成分法分析法,降维是减少的特征,数据行数没变,只是将列数减少了让数据维度变的低一些,在低维中有利于更好的概括数据LDA线性判别分析是有监督的问题,根据 类别选择降维的方向(回头看视频是怎么将的),基于标签进行降维PCA是无监督的问题,没有标检,基于方差进行降维原始数据在某个维度上非常密集,全...原创 2018-10-11 12:00:04 · 9986 阅读 · 3 评论 -
别人的面经
别人实习生面试小米的情况:一面(60min左右) 我是请学长内推的小米机器学习算法岗,一面面试官还是根据我的简历和我聊了会本科到研究生的个人经历,包括保研,成绩,比赛,实践经验都很详细的问了。 确定好聊天的氛围以后,开始问我做的一些项目,我具体解释了项目的背景还有重要技术点,偶尔面试官会根据我说的插问一点东西,基本都是我口述为主,整个过程主动权还是把握在自己手上。 ...原创 2018-10-12 14:47:47 · 210 阅读 · 0 评论 -
Python研发
Python数组中指定位置插入元素,其他元素位置对应往后移动yield含义?表层含义,产出Python负数索引切片序列是可以采用负数的索引来访问的,其范围是-1到序列的负长度(-1开始)[-4:]从后往前取,从-1到-4[:-4]从前往后取,从0到倒数第4个数的前一个数zip函数作用?两列表对应元素配对成元组存储在列表中,以元素少的列表为基准匹配...原创 2018-09-18 09:42:42 · 578 阅读 · 0 评论