【从模型到算法】
文章平均质量分 65
维刚
这个作者很懒,什么都没留下…
展开
-
第2章-回归模型(2)-模型诊断
简介上一节,我们研究了回归模型的线性定义,假设条件,参数估计,以及基于统计学检验的模型评价。但是这并不是意味着我们的回归模型以及可以投入使用,进行决策了。我们还需要在计量经济学的基础上验证模型,当模型出现多重共线性、异方差、序列相关等等问题时,我们需要如何应对与处理。接下来我们来分别针对不同的情况看进行处理正文一,异方差(Heteroscedasticity)(一) 异方差的介绍在线性...原创 2019-01-10 11:32:03 · 8570 阅读 · 0 评论 -
第6章-数据缺失与不平衡的处理(2)-数据不平衡
Pyle’s book : Data preparation for Data Mining Weiss Predictive Data Mining转载 2019-01-15 17:37:58 · 1533 阅读 · 0 评论 -
第2章-回归模型(3)-模型筛选
简介根据前两节的内容,我们的模型就建立完成了嘛?答案是 NO。如果我们有10个候选变量,每个候选变量在回归模型中都有选中和非选中两种状态,那么模型的组合形式有210=10242^{10}=1024210=1024种。假设用了显著性的检验,以及诊断检验方法后,还有24种模型,那我们要如何选择呢 ?回归模型对于特征变量的选取有下面四种形式:变量与实际情况基本吻合缺失了几个相关的重要变量(不...原创 2019-01-15 09:26:39 · 4157 阅读 · 0 评论 -
第2章-回归模型(1)-线性回归模型与估计
简介最早接触线性回归,是在计量经济学中。最简单最基础的即是一元线性回归模型。通过一元线性回归可以衍生出了许多模型,所以学好一元线性回归是非常有必要的,是目前所有回归模型的基础。即使跳出统计、计量的领域,到了数据挖掘、人工智能的领域,线性回归模型也是打好基础的重中之重。谈到模型之前,样本数据的类型也是值得探讨的。按照数据截取的方向划分,有三类:横截面数据(cross section data...原创 2019-01-07 18:51:55 · 5633 阅读 · 0 评论 -
第八章,Longitudinal Data或Panel Data模型
简介什么是Longitudinal Data 或 Panel Data呢 ?由第二章的内容我们知道,一般的回归模型针对的是截面数据,而纯粹的时间序列数据也是有专门的模型进行拟合。无论是时间序列还是截面数据,都是一维的,要么是变量按照时间顺序得到的序列,要么是变量在同一时间上的数据。Panel data(面板数据) 原指一组固定的调查对象的多次观测值,目前已经变成专业术语,泛指上述两种混合类型...原创 2019-01-03 16:39:36 · 11360 阅读 · 1 评论 -
第1章-数据探索(4)-数据的统计分析
简介数据探索的第二个部分就是统计分析部分了。根据第四章的知识,我们知道对于特征子集的筛选,即对变量的筛选,我们有两个大角度,一个角度是从统计角度来看,一个角度是从机器学习算法的角度(正则化)来看。站在第二个角度的立场,我们是不用进行这么复杂的统计分析的,直接跑模型即可。那么接下来的内容,我们主要是站在第一个角度的立场来看问题,顺便了解一些统计方法。统计分析又可以分为描述性分析以及推断性分析两...原创 2018-12-28 14:14:45 · 1159 阅读 · 0 评论 -
第10章-基于树的方法(1)-生成树
原文参考:https://onlinecourses.science.psu.edu/stat857/node/22一,本章简介1,本章主要学习目标理解决策树的基本概念理解构成决策树的三个基本元素理解’不纯度’及其他度量公式的定义知道如何估计每个树节点的各个所属分类的后验概率理解基于树的分类方法的优点理解训练误差(或称再代入误差) 和 代价复杂度测量方法,知道它们的区别,以翻译 2016-05-05 21:44:49 · 3751 阅读 · 0 评论 -
第10章-基于树的方法(2)-树的剪枝
10.8 通过剪枝得到最优规模的树之前我们讨论的都是如何生成树,接下来我们要讲解的是如何进行剪枝。我们令一个树 T 的误分类误差的期望为R∗(T)R^*(T). 回想一下,我们是用再代入误差估计,估计的R∗(T)R^*(T),即R(T)=∑t∈T′R(t)=∑t∈T′p(t)r(t)R(T)=\sum_{t∈T'}{R(t)}=\sum_{t∈T'}{p(t)r(t)}再来想一下,10.3中所讲的翻译 2016-05-17 16:47:55 · 2103 阅读 · 0 评论 -
第1章-数据探索(2)-数据预处理之Python实现
简介Python中,在数据处理这方面最流行的包应当是属于Pandas了。Pandas与Scipy一样,都是基于NumPy这个包开发出来的,所以使用时,都需要引用Numpy。Pandas中的DataFrame与R语言中的数据框的设计理念基本是一致的。不光如此,除了是DataFrame数据类型以外,Pandas还提供时间序列类型Series,以及面板类型Panel。import numpy as ...原创 2018-11-27 11:33:48 · 1568 阅读 · 0 评论 -
第1章-数据探索(1)-数据预处理
简介在我们了解了业务背景,确定了需求和分析目标以后,我们接下来要面对的,就是数据的探索了。不论数据的形式是直接连到数据库、还是导出的csv、txt、json等格式,当我们把数据加载到我们的分析利器(excel/spss/r/python/matlab)之后,不需要太多时间,我们就能了解到数据的概貌了,比如维度是N * M,以及各个字段的含义等等。然而,接下来要做的事情,就不是“不需要太多时间”...原创 2018-11-22 19:14:20 · 3137 阅读 · 0 评论 -
从模型到算法-目录
出于对数据分析、数据挖掘方面的兴趣,以及在未来工作上的帮助。本博打算多看一些相关书籍与博客,总结及翻译相应的知识点。使得自己对这块的知识越来越了解,总结的文章初步分为以下章节:第一章,EDA-数据探索 第二章,线性回归与模型诊断 第三章,从线性概率模型到广义线性模型 第四章,模型中特征子集的选择 第五章,维度归约 第六章,数据缺失与不平衡的处理 第七章,广义相加模型(GAMs) 第八章原创 2016-07-11 18:15:20 · 1097 阅读 · 0 评论 -
第11章,从感知机到支持向量机
感知机(perceptron)到支持向量机原创 2017-08-29 08:18:22 · 735 阅读 · 0 评论 -
第5章-维度归约
原文参考 https://onlinecourses.science.psu.edu/stat857/node/11 http://www.doc88.com/p-315762247283.html http://wenku.baidu.com/link?url=OrBkfJFwZ_l8soN6CRE2B1KAI-988Z0wrzG_K59W39l7ycRTNd6xeH6hFUnRugEywP原创 2016-07-26 16:08:57 · 2789 阅读 · 0 评论 -
第3章-从线性概率模型到广义线性模型(2)
原文参考 斯坦福机器学习cs229-2-Generative Learning algorithms https://mathdept.iut.ac.ir/sites/mathdept.iut.ac.ir/files/AGRESTI.PDF http://data.princeton.edu/wws509/notes/c4a.pdf http://www.cnblogs.com/ooon/p原创 2016-07-26 14:22:24 · 2588 阅读 · 0 评论 -
第4章-模型中特征子集的选择
原文参考: https://onlinecourses.science.psu.edu/stat857/node/137 扩展参考: http://sites.stat.psu.edu/~jiali/course/stat597e/notes2/lreg.pdf https://etd.ohiolink.edu/!etd.send_file?accession=case1300817082&翻译 2016-06-08 11:51:30 · 8438 阅读 · 0 评论 -
第7章,广义相加模型(GAMs)
参考: 第七章:http://www-bcf.usc.edu/~gareth/ISL/ https://en.wikipedia.org/wiki/Spline_(mathematics) http://web.as.uky.edu/statistics/users/pbreheny/621/F10/notes/11-4.pdf http://learning.cis.upenn.edu/c原创 2016-12-01 15:41:42 · 55804 阅读 · 7 评论 -
第3章-线性概率模型(1)-logistics/probit模型
二值因变量模型在统计学中,有一种离散变量为二值变量(又称虚拟变量、哑变量),本文讨论的是当因变量y为二值变量时的模型。Logistic模型也是一种二值因变量模型。探讨Logistic模型之前,我们先从线性概率模型(Linear Probability Model,LPM)谈起,然后逐步介绍Logistics模型以及其他非线性模型.原创 2015-11-19 21:55:29 · 61813 阅读 · 2 评论 -
第17章-非监督学习(1)-基于划分的聚类
斯坦福大学公开课原创 2019-02-13 12:42:30 · 766 阅读 · 0 评论