机器学习
文章平均质量分 82
ep_mashiro
日拱一卒,功不唐捐
展开
-
贝叶斯分类器笔记
贝叶斯分类器从黑人兄弟谈起某一天走到路上,和一个黑人擦肩而过,在惊叹他牙好白的时候,也想到了一个问题,这位黑人兄弟是打哪儿来的呢?A. 非洲 B.美洲 C.欧洲 D.亚洲我猜大多数人会和我一样,倾向于黑人兄弟来自于非洲。为啥?在没有提供其他有用信息,我们只能根据经验判断:非洲的黑人较其他洲的黑人多的多,因此我们认为这位黑人兄弟来自非洲的概率最大。经验往往和概率息息相关,我们认为黑人兄弟来自非洲这个想原创 2016-05-22 17:10:13 · 725 阅读 · 0 评论 -
Logistic Regression知识点整理
Logistic RegressionLinear Regression 的原理(Logistic Regression 的基础) 目标函数 f(x)=wx+bf(x)=wx+bf(x)=wx+b 损失函数 均方误差 E=∑mi=1(f(xi)−yi)2E=∑i=1m(f(xi)−yi)2E = \sum_{i=1}^m(f(x_i)-y_i)^2 推广至多元 E=(y−wx)T(y−w...原创 2018-01-19 11:18:00 · 919 阅读 · 0 评论 -
缺失值处理知识点整理
来源《Python数据分析与数据化运营》 批注1: (丢弃)不宜采用的场景: (1)数据集总体中存在大量的数据记录不完整情况且比例较大,例如超过10%,删除这些带有缺失值的记录意味着将会损失过多有用信息。 (2)带有缺失值的数据记录大量存在着明显的数据分布规律或特征,例如带有缺失值的数据记录的label主要集中于某一类或者某积累,如果删除会导致对应的数据样本丢失大量特征信息,导致模型过...原创 2018-02-12 19:51:02 · 2406 阅读 · 0 评论 -
聚类算法知识点整理
聚类分析能够解决的问题 数据集可以分为几类、每个类别有多少样本量、不同类别中各个变量的强弱关系如何、不同类别的典型特征是什么、基于类别划分的其他应用(如图片压缩)知识点1:Kmeans流程,时间复杂度,优缺点,影响因素,改进方法 知识点2:KNN训练边界、KNN流程、K值选择方法、应用场景 知识点3:聚类应用场景,分类,原理,评价指标 知识点4:相似性度量、距离度量 1. K...原创 2018-01-18 14:23:22 · 4830 阅读 · 0 评论 -
性能度量(模型评价)
分类结果混淆矩阵 ——预测 预测 正例 TP FN 反例 FP TN 准确率: acc = (TP+FP)/(TP+TN+FP+FN) 查准率或精度Precision: P=(TP)/(TP+FP) 查全率或者灵敏性或者召回率Recall: R=(TP)/(TP+FN) P-R曲线:横坐标为P,纵坐标为R,平衡点BEP满足P=R的取...原创 2018-03-05 21:39:19 · 375 阅读 · 0 评论 -
机器学习面试题整理
持更中。。。(最近电脑卡得要死) 主要focus在场景题上一、2015百度校招笔试题 (1)垃圾邮件分类问题 1. 垃圾邮件分类特征? 2. 训练集中99%非垃圾、1%垃圾,训练模型视为100%非垃圾,准确率?召回率? 3. 在实际的应用场景中,尽可能地找回垃圾邮件,应该怎么办? (2)求元素之和最大的子数组 (解答:dp) (3)从字符串流中随机选择一个字符串 【从字符串流中...转载 2018-03-20 14:16:05 · 279 阅读 · 0 评论 -
集成学习专题之GBDT面试
题目和答案来自于网络,相关链接已贴。 春招不易,且学且珍惜~Q1:GBDT的算法流程? A:GBDT是通过采用加法模型(基函数的线性组合),不断减小训练过程产生的残差来达到将数据分类或者回归的算法。针对一般损失函数优化困难问题,利用损失函数的负梯度在当前模型的值作为残差的近似值进行求解。Q2:GBDT如何选择特征?(CART Tree中的特征选择方法) A:遍历每个特征,然后对每个特...原创 2018-03-24 21:17:08 · 2439 阅读 · 0 评论 -
过拟合、欠拟合、正则化
过拟合和欠拟合产生原因 欠拟合:模型学习能力不足(太简单),无法学习到数据的真实分布,即模型的期望输出和真实输出之间有很大的差异,高偏差。过拟合:模型学习能力过分(太复杂),因噪声干扰等因素导致数据的分布有轻微的波动,但是模型也学习到了,导致模型的训练结果得到的数据分布过分依赖于所输入的数据,高方差。从模型泛化程度上理解,欠拟合的模型在训练集和测试集上表现不足,而过拟合的模型尽管在训练...原创 2018-03-26 09:51:44 · 795 阅读 · 0 评论 -
LS-PLM学习笔记
论文链接 Learning Piece-wise Linear Models from Large Scale Data for Ad Click Prediction 首先介绍了传统的解决方案和局限性 (1)LR不能捕捉非线性 (2)GBDT+LR虽然能够产生非线性特征组合,但是树模型不适用于超高维稀疏数据 (3)FM利用二阶信息来产生变量之间的相关性,但是无法适应多阶模式 LS-P...原创 2018-04-02 15:44:54 · 3701 阅读 · 0 评论 -
深度学习知识点整理
开一个坑2.请简要介绍下tensorflow的计算图 @寒小阳:Tensorflow是一个通过计算图的形式来表述计算的编程系统,计算图也叫数据流图,可以把计算图看做是一种有向图,Tensorflow中的每一个计算都是计算图上的一个节点,而节点之间的边描述了计算之间的依赖关系。原创 2018-01-19 11:11:33 · 390 阅读 · 0 评论 -
贝叶斯分类知识点梳理
生成模型和判别模型 判别模型:输入x,直接建模P(y|x)来得到c 生成模型:先对P(y,x)进行建模,然后再由此获得P(y|x)先验概率、条件概率/似然 类先验概率:p(y) 条件概率、似然:p(x|y)朴素贝叶斯分类 目标函数:(其实是最小化分类错误率) y=argmaxP(y=Ck)∏jP(Xj=xj|Y=ck)y=argmaxP(y=Ck)∏jP(Xj=xj|Y=ck)y...原创 2018-01-02 15:32:35 · 780 阅读 · 0 评论 -
决策树知识点整理
目的:为了让模型的不确定性降低的越快越好三个过程:特征选择、决策树的生成、决策树的剪枝 (1)特征选择: 信息熵:随机变量不确定性的度量 H(X)=−∑ni=1pilogpiH(X)=−∑i=1npilogpiH(X)=-\sum_{i=1}^np_ilogp_i 信息增益:(ID3算法),得知特征X的信息而使类Y的信息的不确定减少的程度 g(D,A)=H(D)−H(D|A)g(D,...原创 2018-01-09 11:31:04 · 1397 阅读 · 0 评论 -
[机器怎么老学习]Linear Regression use by Python
Linear Regression with one variable%matplotlib inlineimport matplotlib.pylab as pltimport numpy as np/Users/tinkle1129/anaconda/lib/python2.7/site-packages/matplotlib/font_manager.py:273: UserWarning原创 2016-10-23 21:51:13 · 879 阅读 · 0 评论 -
[机器怎么老学习]线性回归模型
[机器怎么老学习]线性回归模型先引出机器学习万变不离其宗的公式:损失函数+惩罚项当损失函数为Square Loss时,所对应的模型就是Linear Regression。预测值ŷ (w,x)=w0+w1x1+…+wnxn=wTx\hat y(w,x)=w_0+w_1x_1+…+w_nx_n=w^TxOrdinary Least Square目标: min||Xw−y||22min ||Xw-y||原创 2016-10-29 16:02:36 · 449 阅读 · 0 评论 -
Kaggle实战-最简单的DIGIT RECOGNIZER
Digit Recognizer from kagglelink: https://www.kaggle.com/c/digit-recognizerDigit Recognizer是kaggle上很基本的一道题目。数据集描述:The data files train.csv and test.csv contain gray-scale images of hand-drawn digits, f原创 2017-02-16 17:12:16 · 4035 阅读 · 0 评论 -
Boosting、Bagging和Stacking知识点整理
全是坑,嘤嘤哭泣= =简述下Boosting的工作原理 Boosting主要干两件事:调整训练样本分布,使先前训练错的样本在后续能够获得更多关注 集成基学习数目 Boosting主要关注降低偏差(即提高拟合能力)描述下Adaboost和权值更新公式 Adaboost算法是“模型为加法模型、损失函数为指数函数、学习算法为前向分布算法”时的二类分类学习方法。 Adaboost有两项内原创 2018-01-19 11:21:57 · 1828 阅读 · 0 评论 -
EM算法知识点整理
自己的理解 目标θ̃ =argmaxθP(Y|θ)\tilde{\theta} = argmax_\theta P(Y|\theta) 即我们要估计一个合理的θ̃ \tilde{\theta}使得P(Y|θ)P(Y|\theta)达到最大值 如果存在隐变量ZZ,我理解为ZZ是一个没有表现出来但是又是必要的一个中间态,那么P(Y|θ)P(Y|\theta)可以表示为P(Y|θ)=P(Y,Z|θ原创 2018-01-24 14:27:31 · 456 阅读 · 0 评论 -
优化算法知识点整理
几种优化算法,梯度下降的种类 考虑无约束优化问题 minxf(x)minxf(x)min_x f(x)梯度下降梯度下降法是一种常用的一阶优化方法,是求解无约束优化问题最简单、最经典的方法之一。其中,f(x)连续可微。若能构造一个序列x0,x1,x2,...x0,x1,x2,...x^0,x^1, x^2,...满足f(xt+1)<f(xt),t=0,1,2...f...原创 2018-01-25 20:55:06 · 537 阅读 · 0 评论 -
机器学习面试题
平时想到啥就记下来,慢慢补。 算法笔试复习性能度量(模型评价) 优化算法 Logistic Regression 决策树 支持向量机 贝叶斯分类器 聚类算法 Boosting、Bagging和Stacking EM算法 过拟合、欠拟合、正则化内容来源 机器学习面试1000题 李航《统计学习方法》 周志华《机器学习》 《Hands-On Machine Learn...原创 2018-01-18 10:42:12 · 546 阅读 · 7 评论 -
支持向量机知识点整理
SVM 知识框架 SVM的原理是什么? 有别于感知机,SVM在特征空间中寻找间隔最大化的分离超平面的线性分类器SVM为什么采用间隔最大化? 超平面可以有无穷多个,但是几何间隔最大的分离超平面是唯一的,这样的分类结果也是鲁棒的,对未知实例的泛化能力最强。什么是支持向量? 对于硬间隔,支持向量就是间隔边界上的样本点 对于软间隔,支持向量就是间隔边界、间隔带内、分离超平面误分类一侧的样本原创 2018-01-17 13:44:29 · 990 阅读 · 2 评论 -
树模型特征重要性评估方法
前言在特征的选择过程中,如果学习器(基学习器)是树模型的话,可以根据特征的重要性来筛选有效的特征。本文是对Random Forest、GBDT、XGBoost如何用在特征选择上做一个简单的介绍。各种模型的特征重要性计算Random Forests袋外数据错误率评估 RF的数据是boostrap的有放回采样,形成了袋外数据。因此可以采用袋外数据(OOB)错误率进行特征重要...原创 2018-05-07 21:28:33 · 13060 阅读 · 3 评论