数据科学与大数据分析学习笔记-7回归分析


回归分析

–解释一组变量对另一个感兴趣变量结果的影响

–结果/因变量

–输入/独立变量

线性回归 Linear Regression

一种分析技术,用来模拟几个输入变量和一个连续的结果变量之间的关系。

关键假设:关系是线性的。
Linear regression assumes
– There is a linear relationship between the input variables and the outcome variable
在这里插入图片描述
β0, β1 … βp-1 是未知的模型参数-如何获得他们的值呢?
Ordinary Least Squares (OLS) 用普通最小二乘法来估算参数的取值
– A common technique to estimate the parameters.
– Find the line best approximating the relationship.
How to work? 假设针对结果变量y 只有一个输入变量 x。
我们的目标是找到最接近结果变量与输入变量之间关系的一条直线。借助于 OLS,目标变
成找到通过这些点的直线,使得每个点与这条直线在垂直方向的差值的平方和最小。换句话说,
求得 ß 0 和 ß 1 的值,使得公式的总和最小。
在这里插入图片描述
然而OSL——对误差项𝜀没有进行假设
Linear regression model– Making additional assumptions on top of the OLS–>Common assumption: the error term is a normally distributed random variable.

The regression model estimates the expected value of y for the given value of x.
在这里插入图片描述
当定义个x值时,y的期望值在一个区间内
IE,x=8, y = 15—25
The normality assumption on the error terms
– helps hypothesis testing on the regression model
– Provides confidence intervals on β 0 and E(y).
在这里插入图片描述
残差(Residuals)是 n 个结果观测值中每一个的误差项的观测值, 从 R 的输出来看,残差在大约−37~+37 之间变化,中位数接近 0。前面讲到,残差被假定为均值为零和方差恒定的正态分布

截距(Intercept)项β0被隐式地包含在模型中, 一般情况下,截距(Intercept)对应的是在所有输入变量等于 0 时结果值的估算。(Age, education, gender 的参数都是0)

Age 的系数接近于 1,这个系数的解释如下:年龄每增加一岁,个人收入预计将增加$995。
教育年限每增加一年,个人收入预计增加大约$1,758。

对 Gender 的系数的解释稍微有一些区别。当 Gender 等于 0 的时候,Gender 系数对于预期
收入的预测没有贡献。当 Gender 等于 1 的时候,预期的 Income 则会下降大约$934。

系数列右边的 Std.Error(标准误差)列提供了每个系数相关的抽样误差,并且可以用来使用 T 分布(t-distribution)执行假设检验,以确定每个系数是否在统计意义上不为零.如果一个系数

  • 0
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
Data Science and Big Data Analytics is about harnessing the power of data for new insights. The book covers the breadth of activities and methods and tools that Data Scientists use. The content focuses on concepts, principles and practical applications that are applicable to any industry and technology environment, and the learning is supported and explained with examples that you can replicate using open-source software. This book will help you: Become a contributor on a data science team Deploy a structured lifecycle approach to data analytics problems Apply appropriate analytic techniques and tools to analyzing big data Learn how to tell a compelling story with data to drive business action Prepare for EMC Proven Professional Data Science Certification Corresponding data sets are available at www.wiley.com/go/9781118876138. Get started discovering, analyzing, visualizing, and presenting data in a meaningful way today! Table of Contents Chapter 1 Introduction to Big Data Analytics Chapter 2 Data Analytics Lifecycle Chapter 3 Review of Basic Data Analytic Methods Using R Chapter 4 Advanced Analytical Theory and Methods: Clustering Chapter 5 Advanced Analytical Theory and Methods: Association Rules Chapter 6 Advanced Analytical Theory and Methods: Regression Chapter 7 Advanced Analytical Theory and Methods: Classification Chapter 8 Advanced Analytical Theory and Methods: Time Series Analysis Chapter 9 Advanced Analytical Theory and Methods: Text Analysis Chapter 10 Advanced Analytics—Technology and Tools: MapReduce and Hadoop Chapter 11 Advanced Analytics—Technology and Tools: In-Database Analytics Chapter 12 The Endgame, or Putting It All Together

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值