Minouio-CSDN博客

原创统计学-贾俊平（第四版）学习笔记

目录5. 概率与概率分布5.1 概率的定义5.2 全概率&贝叶斯5.3 离散随机变量&概率函数5.4 连续随机变量&概率密度函数6. 统计量及抽样分布6.1 统计量（矩、偏度、峰度）6.2 由正态分布导出的几个重要分布（χ2\chi^2χ2，t分布，F分布）6.3 样本均值分布&中心极限定理6.4 样本比例的抽样分布6.5 两个样本平均值之差的分布6.6 样本方差的分布6.7 F分布、t分布、正态分布与卡方分布的联系与区别7. 参数估计7.1 参数估计的基本原理7.2 一个总

2020-07-27 02:20:01 1376

原创 A/B Test

目录1. A/B Test 定义2. A/B Test 工作原理3. 为什么要进行A/B Test3.1 解决访客痛点3.2 从现有流量中获得更高的投资回报率（ROI）3.3 降低跳出率3.4 低风险修改3.5 取得统计上显著的改善3.6 有益地重新设计您的网站4 A/B Test流程4.1 确定目标4.2 创建变体4.3 生成假设4.4收集数据4.5 运行试验4.6分析结果5 A/B test简例1. A/B Test 定义A/B测试（也称为分割测试或桶测试）是一种将网页或应用程序的两个版本相互比较以

2020-07-22 15:30:21 934

原创异常值检测

目录1 概论1.1 异常检测的定义1.2 异常检测的应用场景1.3 异常值的特点1.4 异常检测算法分类2 Isolation Forest算法2.1 Isolation Forest 算法原理2.2 Isolation Forest 算法特点3 局部异常因子LOF算法3.1 LOF算法原理3.2 LOF算法特点4 One-Class SVM算法4.1 One-Class SVM算法原理4.2 One-Class SVM 算法特点：5 基于高斯概率密度算法5.1 基于高斯概率密度算法原理5.3 基于高斯概率

2020-07-16 21:29:33 2302

原创分类/回归/聚类——模型评估

模型评估1. 基本概念2. 分类模型评估2.1 混淆矩阵2.2 准确率（Accuracy）2.3 精确率（Precision）2.4 召回率（Recall）2.5 P-R（Precision-Recall）曲线2.6 F1 Score2.7 ROC曲线2.8 AUC(area-under-curve)3. 回归模型评估3.1 均方误差（MSE）3.2 均方根误差（RMSE）3.3 平均绝对百分比误差（MAPE）3.4 平均绝对误差（MAE）3.5 对称平均绝对百分比误差（SMAPE）3.6 可决系数（R-S

2020-07-15 01:40:29 2743

原创不平衡数据

目录1. 不平衡数据的定义2. 解决不平衡数据的方法2.1 欠采样2.2 过采样2.3 阈值移动2.4 扩大数据集2.5 尝试对模型进行惩罚2.6 将问题变为异常点检测2.7 特殊的集成的方法2.8 改变评价指标1. 不平衡数据的定义大多数分类学习方法都有一个共同的基本假设，即不同类别的训练样本数目相当。如果不同类别的训练样例数目稍有差别，通常影响不大，若差别很大，会对学习过程造成困扰。例如有998个反例，但正例只有2个，那么学习方法只需返回一个永远将新样本预测为反例的学习器，就能达到98%的精度。如

2020-07-14 01:14:01 4097

原创过拟合与欠拟合

目录1. 过拟合1.1 过拟合的定义1.2 过拟合的原因1.3 过拟合的解决办法2. 欠拟合2.1 欠拟合的定义2.2 欠拟合的原因2.3 欠拟合的解决办法3. 面试题3.1 从Bagging和正则化的角度理解Dropout？1. 过拟合1.1 过拟合的定义定义1（摘自周志华机器学习）：当学习器把训练样本学的“太好”了的时候，很可能已经把训练样本自身的一些特点当作了所有潜在样本都会具有的一般性质，这样就会导致泛化性能下降，这种现象称为过拟合。定义2：具体表现就是最终模型在训练集上效果好；在测试集上效

2020-07-13 22:14:36 20392

原创数据分析面试题——技术类

1. 给你一个无序数组，怎么才能合理采样？无序数组是相对有序数组而言的，无序数组并不等于随机，我们要做的是将无序数组洗牌，得到随机排列。对于无序数组，n个元素能产生n！种排序。如果洗牌算法能产生n！种不同的结果，并且这些结果产生的概率相等，那么这个洗牌算法是正确的。方法：for i in range(len(n)): swap(arr[i], arr[random(i,n)])这段代码是对随机确定数组第一位的值，然后递归对剩余的数组进行相同的过程，可以产生n！中等可能的排序情况。https://b

2020-07-13 01:06:33 1687

原创数据分析面试题——业务思维逻辑

1. 不用任何公开参考资料，估算今年新生儿出生数量。采用两层模型（人群画像x人群转化）：新生儿出生数=Σ各年龄层育龄女性数量*各年龄层生育比率（一般面试中采用这种方法，即费米估计问题，可以参考《这也能想到?——巧妙解答无厘头问题》）从数字到数字：如果有前几年新生儿出生数量数据，建立时间序列模型（需要考虑到二胎放开的突变事件）进行预测找先兆指标，如婴儿类用品的新增活跃用户数量X表示新生儿家庭用户。Xn/新生儿n为该年新生儿家庭用户的转化率，如X2007/新生儿2007为2007年新生儿家庭

2020-07-12 02:09:07 4749

原创数据分析面试题——统计理论

1. 扑克牌54张，平均分成2份，求这2份都有2张A的概率。解：排列公式：Anm=n(n−1)(n−1)...(n−m+1)=n!(n−m)!A_n^m = n(n-1)(n-1)...(n-m+1)=\frac{n!}{(n-m)!}Anm=n(n−1)(n−1)...(n−m+1)=(n−m)!n!组合公式：Cnm=AnmAmm=n(n−1)...(n−m+1)m(m−1)...1=n!m!(n−m)!C_n^m = \frac{A_n^m}{A_m^m}=\frac{n(n-1)...(n

2020-07-11 22:45:42 1963

转载假设检验

1. 假设检验的定义假设检验是先对总体参数提出一个假设值，然后利用样本信息判断这一假设是否成立。1.1 假设检验的假设我们需要对结果进行假设，然后拿样本数据去验证这个假设。做假设检验时会设置两个假设：零假设：零假设(原假设)，H0H_0H0是普遍接受的事实; 它与备选假设相反。研究人员致力于拒绝，废除或反驳零假设。研究人员提出了一个替代假设，他们认为这个假设解释了一种现象，然后努力拒绝零假设。零假设的设置一般为：等于=、大于等于>=、小于等于<=。备选假设：H1H_1H1是统

2020-07-09 00:52:00 16803

原创特征工程——特征预处理

1.特征的标准化和归一化z-score标准化：这是最常见的特征预处理方式，基本所有的线性模型在拟合的时候都会做 z-score标准化。具体的方法是求出样本特征x的均值mean和标准差std，然后用（x-mean)/std来代替原特征。这样特征就变成了均值为0，方差为1了。max-min标准化：也称为离差标准化，预处理后使特征值映射到[0,1]之间。具体的方法是求出样本特征x的最大值max和最小值min，然后用(x-min)/(max-min)来代替原特征。如果我们希望将数据映射到任意一个区间[a,

2020-07-08 00:55:26 509

原创特征工程——特征表达

1. 缺失值处理该特征：连续值：用平均值填补缺失值；中位数填补缺失值。离散值：样本中最频繁出现的类别值，来填充缺失值。2. 特殊类型的特征比如日期时间，比如显示2020/07/07，这样的值一般没办法直接使用。对于时间原始特征，处理方法有很多：使用连续的时间差值法，即计算出所有样本的时间到某一个未来时间之间的数值差距，这样这个差距是UTC的时间差，从而将时间特征转化为连续值。根据时间所在的年，月，日，星期几，小时数，将一个时间特征转化为若干个离散特征，这种方法在分析具有明显时间趋势的问

2020-07-07 23:43:19 447

原创特征工程——特征选择

目录1 特征选择2 子集搜索与评价3 过滤式选择4 包裹式选择5 嵌入式选择6 稀疏表示与字典学习7 压缩感知8 寻找高级特征1 特征选择特征选择是一个重要的数据预处理过程。为什么要特征选择？ 1. 维数灾难；2. 去除不相关特征往往会降低学习任务的难度。冗余特征：它们所包含的信息能从其他特征中推演出来。冗余特征在很多时候不起作业，去除它们会减轻学习过程的负担。若某个冗余特征恰好对应了完成学习任务所需的中间概念，则该冗余特征是有益的。最简单的方法就是方差筛选。方差越大的特征，那么我们可以认为它是

2020-07-07 16:43:00 1817

原创机器学习9-降维与度量学习

目录1. 奇异值分解(SVD)——特征分解1.1 特征分解1.2 奇异值分解2. PCA2.1 PCA基于最小投影距离的推导2.2 PCA的推导:基于最大投影方差2.3 PCA的优缺点1. 奇异值分解(SVD)——特征分解1.1 特征分解特征值和特征向量的定义如下：Ax=λxAx=\lambda xAx=λx其中A是一个n×n的实对称矩阵，x是一个n维向量，则我们说λ是矩阵A的一个特征值，而x是矩阵A的特征值λ所对应的特征向量。如果我们求出了矩阵A的n个特征值λ1≤λ2≤...≤λnλ_1≤λ_

2020-07-06 15:48:21 748

转载机器学习8-LDA

目录1. LDA原理2. 瑞利商与广义瑞利商3. LDA二分类4. LDA多分类5. LDA降维算法流程6. LDA优缺点LDA与PCA的区别1. LDA原理一种经典的降维方法线性判别分析（Linear Discriminant Analysis, 以下简称LDA）。LDA是一种监督学习的降维技术，PCA是不考虑样本类别输出的无监督降维技术。LDA的思想可以用一句话概括，就是“投影后类内方差最小，类间方差最大”。右图比左图好，因为右图的黑色数据和蓝色数据各个较为集中，且类别之间的距离明显。左图则在边

2020-07-04 21:33:34 580

原创机器学习7-XGBoost

目录1. 前言2. XGBoost损失函数3. XGBoost损失函数的优化求解4. 算法流程5 运行效率的优化6 健壮性的优化7 面试题1. 前言XGBoost是GBDT的一种高效实现。XGBoost主要从下面三个方面做了优化：1. 算法本身的优化：在算法的弱学习器模型选择上，对比GBDT只支持决策树，还可以直接很多其他的弱学习器。在算法的损失函数上，除了本身的损失，还加上了正则化部分。在算法的优化方式上，GBDT的损失函数只对误差部分做负梯度（一阶泰勒）展开，而XGBoost损失函数对误差部分做

2020-07-03 01:22:34 470

原创机器学习6-SVM

目录1 间隔与支持向量2 线性可分SVM的算法过程3 核函数4 软间隔5 支持向量回归6 SVM优缺点面试问题收集1 间隔与支持向量在训练集样本空间中找到一个划分超平面，使得这个超平面所产生的分类结果是最鲁棒的，对未见示例的泛化能力最强。wTx+b=0w^Tx+b=0wTx+b=0w为法向量，决定了超平面的方向，b为位移项8，决定了超平面与原点的距离。样本空间中任一点x到超平面(w,b)的距离可写为：r=∣wTx+b∣∣∣w∣∣r=\frac{|w^Tx+b|}{||w||}r=∣∣w∣∣∣wT

2020-07-02 00:25:29 466

原创机器学习5-GBDT

目录GBDT介绍CART回归树GB–Gradient Boosting 梯度提升树：DT–Regression Decistion Tree中的树一般是回归树：Shrinkage–缩减，循序渐进：GBDT算法原理GBDT实例GBDT分类算法GBDT 优缺点GBDT面试问题收集GBDT介绍梯度提升树（Gradient Boosting Decison Tree, 以下简称GBDT）是Boosting家族的一员。GBDT也是迭代，使用了前向分布算法，无论是处理回归问题还是二分类以及多分类，弱学习器只能用C

2020-07-01 01:36:24 944 1

原创机器学习4-集成学习

目录1. 个体与集成2. BoostingAdaboost（二分类）Adaboost（回归）Adaboost正则化Adaboost优缺点3. Bagging&随机森林3.1 Bagging3.2 随机森林4. 结合策略4.1 平均法4.2 投票法4.3 学习法5. 多样性5.1 多样性度量5.2 多样性增强6. Tips7. 面试问题收集1. 个体与集成集成学习通过构建并结合多个学习器来完成学习任务。一般结构：先产生一组个体学习器，再用某种策略将它们结合起来。集成学习可以用于分类问题集成，回归

2020-06-30 01:00:51 835

原创 SQL-复杂查询

SQL 复杂查询1. 视图1.1 视图和表1.2 创建和使用视图1.3 视图的限制1.4 删除视图2. 子查询2.1 子查询视图2.2 标量子查询2.3 关联子查询3. 窗口函数4. 变量4.1 变量的定义1. 视图1.1 视图和表从SQL角度看，视图就是一张表，两者的区别在于是否保存了实际的数据a) 创建表时，会通过insert语句将数据保存到数据库中，而数据库中数据保存到存储设备b) 使用视图时，并不会将数据保存到任何地方，实际上视图保存的时select语句，从视图读取数据时，视图会在内部执行

2020-06-24 02:17:13 513

qq_42012732的博客