自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(25)
  • 收藏
  • 关注

原创 统计学-贾俊平(第四版)学习笔记

目录5. 概率与概率分布5.1 概率的定义5.2 全概率&贝叶斯5.3 离散随机变量&概率函数5.4 连续随机变量&概率密度函数6. 统计量及抽样分布6.1 统计量(矩、偏度、峰度)6.2 由正态分布导出的几个重要分布(χ2\chi^2χ2,t分布,F分布)6.3 样本均值分布&中心极限定理6.4 样本比例的抽样分布6.5 两个样本平均值之差的分布6.6 样本方差的分布6.7 F分布、t分布、正态分布与卡方分布的联系与区别7. 参数估计7.1 参数估计的基本原理7.2 一个总

2020-07-27 02:20:01 1179

原创 A/B Test

目录1. A/B Test 定义2. A/B Test 工作原理3. 为什么要进行A/B Test3.1 解决访客痛点3.2 从现有流量中获得更高的投资回报率(ROI)3.3 降低跳出率3.4 低风险修改3.5 取得统计上显著的改善3.6 有益地重新设计您的网站4 A/B Test流程4.1 确定目标4.2 创建变体4.3 生成假设4.4收集数据4.5 运行试验4.6分析结果5 A/B test简例1. A/B Test 定义A/B测试(也称为分割测试或桶测试)是一种将网页或应用程序的两个版本相互比较以

2020-07-22 15:30:21 480

原创 异常值检测

目录1 概论1.1 异常检测的定义1.2 异常检测的应用场景1.3 异常值的特点1.4 异常检测算法分类2 Isolation Forest算法2.1 Isolation Forest 算法原理2.2 Isolation Forest 算法特点3 局部异常因子LOF算法3.1 LOF算法原理3.2 LOF算法特点4 One-Class SVM算法4.1 One-Class SVM算法原理4.2 One-Class SVM 算法特点:5 基于高斯概率密度算法5.1 基于高斯概率密度算法原理5.3 基于高斯概率

2020-07-16 21:29:33 1867

原创 分类/回归/聚类——模型评估

模型评估1. 基本概念2. 分类模型评估2.1 混淆矩阵2.2 准确率(Accuracy)2.3 精确率(Precision)2.4 召回率(Recall)2.5 P-R(Precision-Recall)曲线2.6 F1 Score2.7 ROC曲线2.8 AUC(area-under-curve)3. 回归模型评估3.1 均方误差(MSE)3.2 均方根误差(RMSE)3.3 平均绝对百分比误差(MAPE)3.4 平均绝对误差(MAE)3.5 对称平均绝对百分比误差(SMAPE)3.6 可决系数(R-S

2020-07-15 01:40:29 2042

原创 不平衡数据

目录1. 不平衡数据的定义2. 解决不平衡数据的方法2.1 欠采样2.2 过采样2.3 阈值移动2.4 扩大数据集2.5 尝试对模型进行惩罚2.6 将问题变为异常点检测2.7 特殊的集成的方法2.8 改变评价指标1. 不平衡数据的定义大多数分类学习方法都有一个共同的基本假设,即不同类别的训练样本数目相当。如果不同类别的训练样例数目稍有差别,通常影响不大,若差别很大,会对学习过程造成困扰。例如有998个反例,但正例只有2个,那么学习方法只需返回一个永远将新样本预测为反例的学习器,就能达到98%的精度。如

2020-07-14 01:14:01 3710

原创 过拟合与欠拟合

目录1. 过拟合1.1 过拟合的定义1.2 过拟合的原因1.3 过拟合的解决办法2. 欠拟合2.1 欠拟合的定义2.2 欠拟合的原因2.3 欠拟合的解决办法3. 面试题3.1 从Bagging和正则化的角度理解Dropout?1. 过拟合1.1 过拟合的定义定义1(摘自周志华机器学习):当学习器把训练样本学的“太好”了的时候,很可能已经把训练样本自身的一些特点当作了所有潜在样本都会具有的一般性质,这样就会导致泛化性能下降,这种现象称为过拟合。定义2:具体表现就是最终模型在训练集上效果好;在测试集上效

2020-07-13 22:14:36 17668

原创 数据分析面试题——技术类

1. 给你一个无序数组,怎么才能合理采样?无序数组是相对有序数组而言的,无序数组并不等于随机,我们要做的是将无序数组洗牌,得到随机排列。对于无序数组,n个元素能产生n!种排序。如果洗牌算法能产生n!种不同的结果,并且这些结果产生的概率相等,那么这个洗牌算法是正确的。方法:for i in range(len(n)): swap(arr[i], arr[random(i,n)])这段代码是对随机确定数组第一位的值,然后递归对剩余的数组进行相同的过程,可以产生n!中等可能的排序情况。https://b

2020-07-13 01:06:33 1562

原创 数据分析面试题——业务思维逻辑

1. 不用任何公开参考资料,估算今年新生儿出生数量。采用两层模型(人群画像x人群转化):新生儿出生数=Σ各年龄层育龄女性数量*各年龄层生育比率(一般面试中采用这种方法,即费米估计问题,可以参考《这也能想到?——巧妙解答无厘头问题》)从数字到数字:如果有前几年新生儿出生数量数据,建立时间序列模型(需要考虑到二胎放开的突变事件)进行预测找先兆指标,如婴儿类用品的新增活跃用户数量X表示新生儿家庭用户。Xn/新生儿n为该年新生儿家庭用户的转化率,如X2007/新生儿2007为2007年新生儿家庭

2020-07-12 02:09:07 4551

原创 数据分析面试题——统计理论

1. 扑克牌54张,平均分成2份,求这2份都有2张A的概率。解:排列公式 :Anm=n(n−1)(n−1)...(n−m+1)=n!(n−m)!A_n^m = n(n-1)(n-1)...(n-m+1)=\frac{n!}{(n-m)!}Anm​=n(n−1)(n−1)...(n−m+1)=(n−m)!n!​组合公式:Cnm=AnmAmm=n(n−1)...(n−m+1)m(m−1)...1=n!m!(n−m)!C_n^m = \frac{A_n^m}{A_m^m}=\frac{n(n-1)...(n

2020-07-11 22:45:42 1701

转载 假设检验

1. 假设检验的定义假设检验是先对总体参数提出一个假设值,然后利用样本信息判断这一假设是否成立。1.1 假设检验的假设我们需要对结果进行假设,然后拿样本数据去验证这个假设。做假设检验时会设置两个假设:零假设:零假设(原假设),H0H_0H0​是普遍接受的事实; 它与备选假设相反。 研究人员致力于拒绝,废除或反驳零假设。 研究人员提出了一个替代假设,他们认为这个假设解释了一种现象,然后努力拒绝零假设。零假设的设置一般为:等于=、大于等于>=、小于等于<=。备选假设:H1H_1H1​是统

2020-07-09 00:52:00 13906

原创 特征工程——特征预处理

1.特征的标准化和归一化z-score标准化:这是最常见的特征预处理方式,基本所有的线性模型在拟合的时候都会做 z-score标准化。具体的方法是求出样本特征x的均值mean和标准差std,然后用(x-mean)/std来代替原特征。这样特征就变成了均值为0,方差为1了。max-min标准化:也称为离差标准化,预处理后使特征值映射到[0,1]之间。具体的方法是求出样本特征x的最大值max和最小值min,然后用(x-min)/(max-min)来代替原特征。如果我们希望将数据映射到任意一个区间[a,

2020-07-08 00:55:26 392

原创 特征工程——特征表达

1. 缺失值处理该特征:连续值:用平均值填补缺失值;中位数填补缺失值。离散值:样本中最频繁出现的类别值,来填充缺失值。2. 特殊类型的特征比如日期时间,比如显示2020/07/07,这样的值一般没办法直接使用。对于时间原始特征,处理方法有很多:使用连续的时间差值法,即计算出所有样本的时间到某一个未来时间之间的数值差距,这样这个差距是UTC的时间差,从而将时间特征转化为连续值。根据时间所在的年,月,日,星期几,小时数,将一个时间特征转化为若干个离散特征,这种方法在分析具有明显时间趋势的问

2020-07-07 23:43:19 353

原创 特征工程——特征选择

目录1 特征选择2 子集搜索与评价3 过滤式选择4 包裹式选择5 嵌入式选择6 稀疏表示与字典学习7 压缩感知8 寻找高级特征1 特征选择特征选择是一个重要的数据预处理过程。为什么要特征选择? 1. 维数灾难 ;2. 去除不相关特征往往会降低学习任务的难度。冗余特征:它们所包含的信息能从其他特征中推演出来。冗余特征在很多时候不起作业,去除它们会减轻学习过程的负担。若某个冗余特征恰好对应了完成学习任务所需的中间概念,则该冗余特征是有益的。最简单的方法就是方差筛选。方差越大的特征,那么我们可以认为它是

2020-07-07 16:43:00 1382

原创 机器学习9-降维与度量学习

目录1. 奇异值分解(SVD)——特征分解1.1 特征分解1.2 奇异值分解2. PCA2.1 PCA基于最小投影距离的推导2.2 PCA的推导:基于最大投影方差2.3 PCA的优缺点1. 奇异值分解(SVD)——特征分解1.1 特征分解特征值和特征向量的定义如下:Ax=λxAx=\lambda xAx=λx其中A是一个n×n的实对称矩阵,x是一个n维向量,则我们说λ是矩阵A的一个特征值,而x是矩阵A的特征值λ所对应的特征向量。如果我们求出了矩阵A的n个特征值λ1≤λ2≤...≤λnλ_1≤λ_

2020-07-06 15:48:21 572

转载 机器学习8-LDA

目录1. LDA原理2. 瑞利商与广义瑞利商3. LDA二分类4. LDA多分类5. LDA降维算法流程6. LDA优缺点LDA与PCA的区别1. LDA原理一种经典的降维方法线性判别分析(Linear Discriminant Analysis, 以下简称LDA)。LDA是一种监督学习的降维技术,PCA是不考虑样本类别输出的无监督降维技术。LDA的思想可以用一句话概括,就是“投影后类内方差最小,类间方差最大”。右图比左图好,因为右图的黑色数据和蓝色数据各个较为集中,且类别之间的距离明显。左图则在边

2020-07-04 21:33:34 414

原创 机器学习7-XGBoost

目录1. 前言2. XGBoost损失函数3. XGBoost损失函数的优化求解4. 算法流程5 运行效率的优化6 健壮性的优化7 面试题1. 前言XGBoost是GBDT的一种高效实现。XGBoost主要从下面三个方面做了优化:1. 算法本身的优化:在算法的弱学习器模型选择上,对比GBDT只支持决策树,还可以直接很多其他的弱学习器。在算法的损失函数上,除了本身的损失,还加上了正则化部分。在算法的优化方式上,GBDT的损失函数只对误差部分做负梯度(一阶泰勒)展开,而XGBoost损失函数对误差部分做

2020-07-03 01:22:34 310

原创 机器学习6-SVM

目录1 间隔与支持向量2 线性可分SVM的算法过程3 核函数4 软间隔5 支持向量回归6 SVM优缺点面试问题收集1 间隔与支持向量在训练集样本空间中找到一个划分超平面,使得这个超平面所产生的分类结果是最鲁棒的,对未见示例的泛化能力最强。wTx+b=0w^Tx+b=0wTx+b=0w为法向量,决定了超平面的方向,b为位移项8,决定了超平面与原点的距离。样本空间中任一点x到超平面(w,b)的距离可写为:r=∣wTx+b∣∣∣w∣∣r=\frac{|w^Tx+b|}{||w||}r=∣∣w∣∣∣wT

2020-07-02 00:25:29 286

原创 机器学习5-GBDT

目录GBDT介绍CART回归树GB–Gradient Boosting 梯度提升树:DT–Regression Decistion Tree中的树一般是回归树:Shrinkage–缩减,循序渐进:GBDT算法原理GBDT实例GBDT分类算法GBDT 优缺点GBDT面试问题收集GBDT介绍梯度提升树(Gradient Boosting Decison Tree, 以下简称GBDT)是Boosting家族的一员。GBDT也是迭代,使用了前向分布算法,无论是处理回归问题还是二分类以及多分类,弱学习器只能用C

2020-07-01 01:36:24 742 1

原创 机器学习4-集成学习

目录1. 个体与集成2. BoostingAdaboost(二分类)Adaboost(回归)Adaboost正则化Adaboost优缺点3. Bagging&随机森林3.1 Bagging3.2 随机森林4. 结合策略4.1 平均法4.2 投票法4.3 学习法5. 多样性5.1 多样性度量5.2 多样性增强6. Tips7. 面试问题收集1. 个体与集成集成学习通过构建并结合多个学习器来完成学习任务。一般结构:先产生一组个体学习器,再用某种策略将它们结合起来。集成学习可以用于分类问题集成,回归

2020-06-30 01:00:51 497

原创 SQL-复杂查询

SQL 复杂查询1. 视图1.1 视图和表1.2 创建和使用视图1.3 视图的限制1.4 删除视图2. 子查询2.1 子查询视图2.2 标量子查询2.3 关联子查询3. 窗口函数4. 变量4.1 变量的定义1. 视图1.1 视图和表从SQL角度看,视图就是一张表,两者的区别在于是否保存了实际的数据a) 创建表时,会通过insert语句将数据保存到数据库中,而数据库中数据保存到存储设备b) 使用视图时,并不会将数据保存到任何地方,实际上视图保存的时select语句,从视图读取数据时,视图会在内部执行

2020-06-24 02:17:13 237

原创 Oracle 初级知识-SQL基础

目录前言Oracle 概述表空间操作表中的数据前言Oracle数据库是什么?Oracle Database,又名Oracle RDBMS,简称Oracle。是甲骨文公司推出的一款关系数据库管理系统。Oracle和MySQL的区别?Oracle是大型数据库而Mysql是中小型数据库,Oracle市场占有率达40%,Mysql只有20%左右,同时Mysql是开源的而Oracle价格非常高。Oracle支持大并发,大访问量,是OLTP最好的工具。安装所用的空间差别也是很大的,Mysql安装完后才1

2020-06-23 21:27:44 234

原创 SQL-关于日期

目录前言相关函数例子前言本篇博客主要整理关于日期查询等相关知识点及例子。相关函数GETDATE:SQL SERVER返回当前的日期和时间,例如( “2020-06-22 07:23:59”)MySQL 用NOW()函数获得当前时间。SELECT GETDATE();DATEPART: 函数用于返回日期/时间的单独部分,比如年、月、日、小时、分钟等等。SELECT GETDATE();--// 2017-06-19 18:06:19.687SELECT DATEPART(YEAR,

2020-06-22 15:59:20 143

原创 机器学习3-决策树

目录前言信息熵决策树ID3算法决策树ID3算法缺点决策树C4.5算法决策树C4.5算法缺点CART分类树算法CART分类树算法缺点决策树优缺点总结优点缺点面试问题前言决策树既可以作为分类算法,也可以作为回归算法,同时也特别适合集成学习比如随机森林。信息熵熵度量了事物的不确定性,越不确定的事物,它的熵就越大。具体的,随机变量X的熵的表达式如下:H(X)=−∑i=1npilogpiH(X) = - \sum_{i=1}^{n}{p_ilogp_i}H(X)=−i=1∑n​pi​logpi​多个个变量

2020-05-09 02:56:41 419

原创 机器学习2-逻辑回归

目录前言算法思想二元逻辑回归模型二元逻辑回归梯度推导多元逻辑回归模型逻辑回归&朴素贝叶斯逻辑回归优缺点优点:缺点应用面试问题收集前言逻辑回归是一个分类算法(二元/多分类),并不是回归算法。Y是连续的才是回归模型。这里打算把公式推一遍。算法思想假设数据服从伯努利分布,在训练数据集中基于对数似然函数,利用梯度下降,找出最佳拟合曲线(最佳分类线θTX\theta^TXθTX),通过sig...

2020-05-03 22:54:40 551

原创 机器学习1-朴素贝叶斯

目录前言前提假设算法思想参数估计优缺点应用一些思考&面试问题前言判别方法:直接学习出特征输出Y和特征X之间的关系,决策函数Y=f(X),要么是条件分布P(Y|X)。比如决策树,KNN,逻辑回归,支持向量机等生成方法:朴素贝叶斯却是生成方法,也就是直接找出特征输出Y和特征X的联合分布P(X,Y),然后用P(Y|X)=P(X,Y)/P(X)得出。。前提假设特征之间相互独立;每个特...

2020-05-03 01:57:50 1147

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除