![](https://img-blog.csdnimg.cn/20201014180756738.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
统计学运用
buracag_mc
一个做着金融梦看着各种书码着代码志从数据挖掘与统计机器学习的篮球爱好者与统计人
展开
-
【Python】聚类算法应用 -- 广告投放效果的离线评估
利用Python写了一个离线的广告投放效果评估的脚本。除了最基础的统计与展现函数之外,最核心的部分是指标构建与算法分析。由于投放的keyword太多且没有标签,所以我采用的是无监督学习中的K-Means算法,写了一个调用SQL的查询类,传入对应的city、start_time、end_time、platform、engine_type等参数以获得相应的训练数据集。最后根据训练集输出各城市的投放效果评估。原创 2017-07-30 14:57:31 · 4161 阅读 · 15 评论 -
Logistic Loss函数
同步于音尘杂记前面在浏览sklearn中关于Logistic Regression部分,看到关于带正则项的LR目标损失函数的定义形式的时候,对具体表达式有点困惑,后查阅资料,将思路整理如下:文章目录1. sklearn文档中的LR损失函数2. LR损失函数2.1 logistic基础知识2.2 旧思路2.3 新思路3. 思考1. sklearn文档中的LR损失函数先看sklearn对于LR...原创 2019-04-26 17:51:20 · 12752 阅读 · 0 评论 -
单层感知器为什么不能解决异或(XOR)问题
同步于音尘杂记单层感知器为什么不能解决异或问题(XOR)问题?给出两个思路去考虑这个小问题最近翻到了自己在印象笔记中学习记录的一些知识点,后续准备系统地整理放在自己的博客上,还请各位不吝指教。文章目录1. 感知器模型2. 单层感知器模型算法概述3. 线性不可分问题4. "与"、"或"、"非"、"异或问题的证明1. 感知器模型感知器模型是美国学者罗森勃拉特(Frank Rosenbla...原创 2019-04-12 19:42:29 · 15844 阅读 · 1 评论 -
AIC和BIC相关知识
同步于音尘杂记文章目录1. 模型拟合优度检验2. 调整R square3. AIC和BIC1. 模型拟合优度检验最基础的一个模型拟合优度的检验量就是R square(方程的确定系数)。已知一组样本观测值 (Xi,Yi)(X_i, Y_i)(Xi,Yi),其中i=1,2,3,…,n得到如下样本回归方程:Yi^=β0^+β1^Xi\hat{Y_i} = \hat{\beta_0} + ...原创 2019-04-08 20:46:31 · 14137 阅读 · 2 评论 -
LR算法(基础及核心概念)
前言首先需要清楚的是,LR(Logistic Regression)虽然是回归模型,但却是经典的分类方法。 为什么分类不用SVM呢?我们对比一下SVM,在二分类问题中,如果你问SVM,它只会回答你该样本是正类还是负类;而你如果问LR,它则会回答你该样本是正类的概率是多少~文章主要内容如下: LR的理论基础LR的参数求解过程正则化原创 2017-08-27 15:29:17 · 55637 阅读 · 2 评论 -
EM算法(基础及核心概念)
从Jensen不等式以及极大似然估计开始说起,整理了EM算法的基础知识、核心概念以及部分推导过程,希望对大家有些许帮助。原创 2017-08-20 17:55:20 · 1515 阅读 · 0 评论 -
SVM推导过程注解(一)
前言支持向量机(Support Vector Machine)的原理其实比较简单,书本以及网上优秀教程都比较多;但是涉及到对偶问题以及KKT条件的讲解上,很多都是一笔带过了,让很多初学者比较疑惑(当然,包括我=_=)。故我结合学习过程将详细的对偶问题以及KKT条件的推导整理写出来,权当SVM推导过程的相关注解。希望对大家有所帮助,不对之还处望大家指正。原创 2017-08-06 12:01:03 · 2396 阅读 · 4 评论 -
聚类算法--K值估计及效果评估
对聚类分析算法重温一遍,补充了两个比较关键的步骤:1).利用肘部法则估计参数数目;2).利用轮廓系数评估聚类算法的优劣这些Python都有现成的轮子,只需传入相应的数据集即可。原创 2017-07-22 12:34:48 · 12062 阅读 · 3 评论 -
近邻分析 -- KNN
在传统统计学中一般是假设数据满足某种分布假设,然后明确设定输出变量与输入变量的函数形式;最后根据数据估计未知参数,进而根据函数关系进行预测。但是在实际应用中,或者在输入变量较多,样本量较大的情况下,要求出具体的函数是非常困难的。对此,可采用数据挖掘中非常经典而有效的方法--近邻分析。本文,介绍了近邻算法的基础知识及核心概念。原创 2017-07-15 16:32:30 · 6255 阅读 · 0 评论 -
SVM -- R的演示及应用示例
基于R对SVM算法中常见的线性可分下的支持向量分类、线性不可分下的支持向量分类以及多分类的支持向量分类进行了简单演示以及应用示例。包括了详细的函数解读以及可视化结果分析。原创 2017-07-30 22:30:56 · 14810 阅读 · 0 评论 -
A/B-test显著性检验
同步至:https://www.runblog.online/2019/03/18/ab-test-significance-test/前言################################################################### 本文是我在实习期间老大要求出的,故整理发布到博客上,欢迎大家拍砖 !#### 另外,注释内容及部分公式内...原创 2017-07-09 21:30:15 · 54945 阅读 · 26 评论 -
分位数回归简介
分位数回归简介同步于音尘杂记;Buracag的博客最近在做一个比较有意思(难搞…)的项目。大致介绍一下相关背景:根据历史的一个工作情况(历史表现,也就是有多少人做了多少工作量),以及未来的一个预估工作量(预测值),我们需要预估一个合理的人员投入;一言概之,根据历史表现和预测件量预估人员投入。时序问题?咋一看,这不就是一个时序问题嘛!人力投入如下:Yt=f(Tt,St,Ct,It)Y_t...原创 2019-06-01 15:04:40 · 14212 阅读 · 1 评论